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Grußwort der Herausgeber*innen 


Mit der 23. Ausgabe des Jahrbuchs für Schulentwicklung rahmt das Institut 
für Schulentwicklungsforschung (IFS) sein 50-jähriges Bestehen und damit 
ein besonderes Jubiläum. Fünf Jahrzehnte hat die Forschung am IFS die Schul- 
entwicklung und Empirische Bildungsforschung in zentralen Themenberei- 
chen geprägt sowie Entwicklungen im Bildungsbereich initiiert, begleitet und 
evaluiert. Als ein führendes Forschungsinstitut in Deutschland hat das IFS 
herausragende Forschungsarbeiten und Projekte hervorgebracht, die in der 
schulischen Praxis, der Bildungspolitik und Bildungsadministration sowie in 
der Wissenschaft für zahlreiche Veränderungen und Weiterentwicklungen 
sorgten und diese Prozesse begleiteten. 

Der vorliegende Band umfasst in der Tradition des Jahrbuchs für Schul- 
entwicklung aktuelle Forschungsarbeiten, die mit dem IFS in Verbindung 
stehen. Aufgrund des Jubiläums sollte jedoch kein spezifischer inhaltlicher 
Schwerpunkt leitend für die Zusammenstellung der Beiträge sein, sondern 
die Forschungsstärke des Instituts in der Vielzahl seiner Forschungsfelder 
repräsentiert werden. Dazu enthält das Jahrbuch für Schulentwicklungs- 
forschung 2023 ausgewählte Beiträge von Professor*innen, die ehemals am 
IFS tätig waren. Mit ihren Wurzeln am IFS erweitern sie die Reichweite der 
Grundlagen und Impulse des Instituts und präsentieren Einblicke in ihre 
aktuellen Forschungsarbeiten. Zudem bietet das vorliegende Jahrbuch einen 
Einblick in die breit aufgestellten Forschungsbereiche des IFS, indem es aktu- 
elle Forschungsarbeiten der mit dem Institut verbundenen Professor*innen 
und Mitarbeiter*innen präsentiert. Die Forschungsstärke des Instituts wird 
hier durch die Qualität der wissenschaftlichen Forschung und die multiper- 
spektivischen Blickwinkel besonders deutlich. Von Interventionsstudien bis 
hin zu internationalen Schulleistungsstudien, von Themen auf Individuale- 
bene bis hin zur Systemebene sind zentrale Forschungsrichtungen repräsen- 
tiert, was die Breite der Forschung am IFS illustrieren kann: 

Stubbe und Kriegnehmen Operationalisierungen des sozialen Status von 
Familien zur Erklärung sozialer Disparitäten im Bildungserfolg in den Blick 
und benennen damit verbundene Herausforderungen. Unter Bezugnahme 
auf Bourdieus Kapitaltheorie referieren sie klassische Indikatoren zur Mes- 
sung sozialen Kapitals und bieten einen Überblick über den Forschungs- 
stand zu sozialen Disparitäten mit einem Fokus auf prominente Panelstu- 


dien. Neben deskriptiven Analysen der Operationalisierungsmöglichkeiten 
sozialen Kapitals stützen sie sich auf vertiefende Trendanalysen von TIMSS 
2007 bis 2019. 

Gebauer und Rübben fokussieren diversitätsbezogene Einstellungen 
angehender Lehrkräfte und deren Bedeutung für eine diversitätssensible 
Unterrichtsgestaltung. Ausgehend von der Annahme, dass die Überzeugun- 
gen von Lehrkräften eine diversitätssensible Unterrichtsgestaltung beein- 
flussen, wurde eine quantitative Fragebogenstudie mit Lehramtsstudieren- 
den einer nordrhein-westfälischen Universität durchgeführt. 

van Ophuysen, Behrmann und Schürer untersuchen die Bedeutung von 
Aspekten der prozessbezogenen Diagnosequalität aus Perspektive von Lehr- 
kräften der Primar- und Sekundarstufe. Der Fokus des Beitrags liegt auf der 
pädagogischen Diagnostik im Kontext von Schullaufbahnempfehlungen am 
Ende der Grundschulzeit und am Ende der Erprobungsstufe an Gymnasien. 
Basierend auf dem Vier-Komponenten-Modell der Diagnosequalität iden- 
tifizieren die Autor*innen Prozessmerkmale einer qualitativ hochwertigen 
Diagnostik. Die empirische Basis stellt eine standardisierte Online-Befra- 
gung von Lehrkräften an Grundschulen und Gymnasien dar. 

Lauermann, Benden, DeVries und Heitzer nehmen interindividuelle 
Unterschiede bei der Qualität der Testbearbeitung eines Selbsteinschät- 
zungstests für mathematische Grundkenntnisse (WINT-Check) für Stu- 
dierende mathematikintensiver Studiengänge in den Blick und leisten einen 
Beitrag zur verbesserten Einschätzung solcher Tests als Informations- und 
Screeninginstrument für Hochschulen. Mittels Pfadanalysen werden demo- 
grafische Daten, Leistungsunterschiede und mathematikbezogene Motiva- 
tion mit verschiedenen Indikatoren der Qualität der Testbearbeitung und 
Leistung verknüpft. 

von Keyserlingk, Lauermann, Yu, Rubach und Arum nutzen Verhaltens- 
spurdaten auf Lernmanagementsystemen wie Moodle, um selbstreguliertes 
Lernverhalten von Studierenden zu untersuchen. Daten wie das Klickver- 
halten, die Bearbeitung freiwilliger Testfragen oder die Zeit, die Studierende 
auf der Lernplattform verbringen, werden vor dem Hintergrund des Kursab- 
laufes und der Charakteristika der Studierenden in Verbindung mit deren 
Lernerfolg und Noten gebracht. 

Becker, Kocaj, Jansen, Dumont, Lüdtke und Kuhl diskutieren die Effekte, 
die die Komposition von Lerngruppen auf die Leistungsentwicklung der 
individuellen Gruppenmitglieder haben. Die inhaltlichen und methodi- 
schen Probleme in der Konzeption, Analyse und Interpretation von Klas- 
senkompositionseffekten werden vor dem Hintergrund „klassischer“ und 
aktueller Forschungsbefunde und Kontroversen dargestellt und diskutiert. 


Lorenz, Ludewig, Schaufelberger, Kleinkorres und McElvany stellen 
Trends von 15 Jahren der Internationalen Grundschul-Lese-Untersuchung 
(IGLU) vor. Besonders im Fokus steht dabei, wie sich zentrale Lernbedin- 
gungen der Schülerschaften in Deutschland im internationalen Vergleich 
zwischen 2001 und 2016 gewandelt haben. Neben Schülerzahlen werden 
Bedingungsfaktoren des häuslichen und digitalen Umfelds, der Klassen- 
komposition und der Motivation dargestellt. 

Yotyodying und Lorenz erforschen die Prädiktoren für einen qualitäts- 
vollen Einsatz von digitalen Medien im Distanzunterricht vor dem Hinter- 
grund des hybriden Unterrichts während der COVID-19-Pandemie. Berück- 
sichtigt wurden sowohl die Nutzungsmerkmale der Lehrkräfte, als auch die 
der Schüler*innen. Auf der Basis einer repräsentativen Lehrkräftebefragung 
wurden Strukturgleichungsmodelle zur Beantwortung der Fragestellungen 
berechnet. 

Alscher, Grecu, Ludewig und McElvany stellen ein Kompetenzmodell für 
die politische Bildung in Deutschland vor. Das Modell umfasst die Dimen- 
sionen des politischen Wissens, der politischen Motivation, der politischen 
Einstellungen und des politischen Willens. Dieses Modell wird mit Mittel- 
wertsvergleichen und konfirmatorischer Faktorenanalyse empirisch über- 
prüft. 

Gaspard, Parrisius und Nagengast untersuchen eine Intervention, die 
Schüler*innen der neunten Klasse in ihrer wahrgenommenen Relevanz im 
Mathematikunterricht unterstützen soll. Die Intervention soll insbesondere 
„Risikogruppen“ von Schüler*innen langfristig in ihrer Motivation und 
ihren Leistungen im Mathematikunterricht fördern. In einer Moderations- 
analyse wird untersucht, inwiefern die Intervention erfolgreich ist, diese 
Risikogruppen anzusprechen. 

Dignath und Fischer befassen sich in ihrem Beitrag mit den Rollen von 
Lehrkräften im Bereich des selbstregulierten Lernens. Lehrkräfte fördern 
zum einen das selbstregulierende Lernen von Schüler*innen, zum anderen 
sind sie selbst Lernende und Unterrichtende, die ihr Lernen und das Unter- 
richten selbst regulieren müssen. Es werden mehrere Forschungsbefunde, 
die sich mit den verschiedenen Rollen von Lehrkräften befassen, vorgestellt. 

Abgerundet wird die Jubiläumsausgabe des Jahrbuchs für Schulentwick- 
lung durch einen Beitrag, in dem die „50 Jahre IFS“ von seinen Professor*in- 
nen rückblickend und auch mit Blick auf die Zukunft in Interviews bespro- 
chen werden. Sie heben zentrale Handlungsfelder, den Einfluss des IFS auf 
unterschiedliche Akteure und besondere Leistungen hervor und wagen 
abschließend einen Blick auf zukünftige Entwicklungen. 


Ein besonderer Dank gilt den Gutachter*innen, die im Zuge des inter- 
nen und externen Reviews der Beiträge mit ihrer Expertise maßgeblich zur 
Sicherung der Qualität der Kapitel beigetragen haben. Dazu bedanken wir 
uns herzliche neben den Kolleg*innen am IFS bei Prof. Dr. Hermann Josef 
Abs, Prof. Dr. Michael Besser, Dr. Malte Jansen, Prof. Dr. Michael Kerres, 
Dr. Christoph König, Prof. Dr. Johannes König, Prof. Dr. Falk Radisch, Prof. 
Dr. Florian Schmiedek und Prof. Dr. Birgit Spinath für die Begutachtung 
von Beiträgen. 

Die Beiträge des vorliegenden 23. Jahrbuchs der Schulentwicklung sollen 
einen wertvollen Beitrag für die Bildungsforschung darstellen und nach 50 
Jahren Forschung am IFS Impulse für die aktuelle, evidenzbasierte Diskus- 
sion zentraler Fragen der Schulentwicklung bieten. 


Dortmund, im Juni 2023 
Nele McElvany 

Alyssa Grecu 

Ramona Lorenz 
Michael Becker 
Charlotte Dignath 
Hanna Gaspard 

Fani Lauermann 


Herausgeber*innen 
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Grußwort des IFS-Beiratsvorsitzenden 


Das Institut für Schulentwicklungsforschung (IFS) an der Technischen Uni- 
versität Dortmund entwickelte sich nach seiner Gründung 1973 zu einer 
bedeutenden Größe unter den bundesdeutschen Schul- und Bildungsfor- 
schungsinstituten mit wissenschaftlicher Strahlkraft weit über die Grenzen 
Deutschlands hinaus. 

Von Anfang an bildet die empirische Bildungs- und Schulentwicklungs- 
forschung das Kernziel des IFS. Somit bietet das IFS Entscheidungsträgern 
nicht nur des bundesrepublikanischen Schulsystems sondern auch auf inter- 
nationaler Ebene substantielle, empirisch evidente Kenntnisse zu aktuellen 
Fragestellungen im Bereich von Bildung und Schule an. Die bedeutsamen 
Beiträge des IFS für Wissenschaft und insbesondere die Kultuspolitik wer- 
den ermöglicht durch einen interdisziplinären Ansatz, in dem alle heute 
unter dem Begriff „Bildungswissenschaften“ firmierenden Teilgebiete veror- 
tet werden können. Seit Jahrzehnten gelingt es dadurch dem IFS, das selbst- 
gesteckte Ziel Lern- und Entwicklungsprozesse, Schulentwicklung und Bil- 
dungsergebnisse unter den relevanten Kontextbedingungen aller Ebenen 
empirisch gesichert zu beschreiben und daraus notwendiges Steuerungswis- 
sen für Bildungssysteme zur Verfügung zu stellen, um Bildungsprozesse zu 
optimieren. 

Man kann die TU Dortmund nur dazu beglückwünschen, ein solch for- 
schungsstarkes und national sowie international höchst visibles Institut wie 
das IFS als ein Aushängeschild des eigenen Profilbereichs „Bildung, Schule 
und Inklusion“ dauerhaft in seinen Strukturen verankert zu haben. Hierin 
zeigt sich, wie gesellschaftlich bedeutsam und gleichzeitig wissenschaftlich 
erfolgreich eine dauerhafte Institutionalisierung sein kann, da sowohl in der 
empirischen Bildungsforschung als auch in der Kultuspolitik das IFS konti- 
nuierlich wichtigste Beiträge lieferte. Hierbei wurde aber auch immer darauf 
geachtet, nicht erst reaktiv, sondern proaktiv die Erkenntnisfortschritte im 
bildungswissenschaftlichen Bereich mitzugestalten, was sich unter ande- 
rem sehr gut an der methodisch progressiven Arbeitsart und -weise des IFS 
über die Jahrzehnte erkennen lässt. Dies spiegelt sich auch in der Personal- 
politik des IFS wieder, die darauf bedacht ist, aufstrebende, innovative und 
international visible Forschungspersönlichkeiten an das IFS zu bringen, 
beziehungsweise dort in ihrer weiteren Entwicklung zur internationalen 
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Forschungsspitze in dem Feld der empirischen Bildungsforschung zu unter- 
stützen. Durch den Mut des IFS zur Innovation werden immer wieder neue, 
aktuelle und gesellschaftsrelevante Themenfelder besetzt und bisherige 
Themen gegebenenfalls dann auch konsequent abgeschlossen, ohne dabei 
einen eklektizistischen, vom Zeitgeist getriebenen Wissenschaftsansatz zu 
verfolgen. Vielmehr arbeitet das IFS auf einer klaren wissenschaftlich-empi- 
rischen Grundhaltung, basierend auf aktuellsten, vielfältigen Methodiken. 
Durch dieses wissenschaftliche Streben nach empirisch prüfbarer Wahrheit 
werden Kontrastpunkte zu vielen weltanschaulich und allein politisch-nor- 
mativ motivierten Standpunkten im Bildungsbereichen entgegengesetzt. 
Dies ist keine Selbstverständlichkeit, da hier keine Auftragsforschung im 
Sinne potenzieller Geldgeber betrieben wurde und wird, sondern wissen- 
schaftliche Methoden als Grundlage zur gesicherten Gestaltung von Bil- 
dungszielen eingesetzt werden. Das ist im Zeitalter sogenannter „gefühlter 
bzw. alternativer Fakten“ ein essentielles Korrektiv, um Bildungsprozesse 
verbunden mit der Ausgestaltung der Bildungsinstitutionen als basale Säule 
moderner, globalisierter und vor allem demokratischer Wissensgesellschaf- 
ten weiterzuentwickeln. Betrachtet man die Herausforderungen des 21. 
Jahrhunderts, so ist der „Kampf um die besten Köpfe“ sicherlich einer der 
wichtigsten Erfolgsfaktoren, um Herausforderungen im globalen Wettbe- 
werb, aber insbesondere in der globalen Kooperation, zu bestehen. Hierüber 
entscheidet auch die Qualität der Bildungssysteme. Dazu liefert das IFS ins- 
besondere im Bereich Schule substanzielle Erkenntnisse. 

Hervorzuheben ist, dass diese Erkenntnisse dabei nicht nur in wissen- 
schaftsüblichen, schriftlichen Formaten kommuniziert werden, sondern es 
ist zu betonen, dass das IFS gerade in den letzten Jahren in beispielhaftem 
Maße die rasche Wissenschaftskommunikation relevanter Forschungs- 
ergebnisse in die Bildungspraxis befördert. So veranstaltet das IFS jähr- 
lich zwei in ihren Schwerpunkt unterschiedlich fokussierte Konferenzen: 
„Das Dortmunder Symposium der Empirischen Bildungsforschung“ und 
den „IFS-Bildungsdialog“. Diese jährlich stattfindenden Veranstaltungen 
wechseln in ihren Schwerpunktsetzungen und werden ergänzt von der „IFS 
Virtual Keynote Series“, die internationalen Spitzenforscher:innen aus der 
empirischen Bildungsforschung ein Podium bietet. Dass all diese Wissen- 
schaftskommunikationsaktivitäten gerahmt werden von einem entspre- 
chend informativen Webauftritt, ist nur ein weiterer Beleg für die hohen 
Standards der Wissenschaftskommunikation, die am IFS gepflegt werden. 

Dementsprechend gratuliere ich dem IFS zu fünf Jahrzehnter höchst 
erfolgreicher interdisziplinärer, multimethodaler und praxisrelevanter For- 
schung im Bereich der schulischen empirischen Bildungsforschung und 
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wünsche allen Beteiligten die Kraft und Inspiration, auch in den nächsten 
Jahrzehnten Bildungsforschung auf diesem Niveau zu betreiben und die 
Praxis einzubringen. 


Frankfurt a. M., im Sommer 2023 


Prof. Dr. Holger Horz 
Vorsitzender des IFS-Beirats 
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Soziale Disparitäten im 
deutschen Bildungssystem 


Theoretische Modelle und empirische Befunde 


Tobias C. Stubbe & Maria Krieg 


Zusammenfassung 


Ein unverändert wichtiges Thema der empirischen Bildungsforschung mit 
einer besonderen gesamtgesellschaftlichen Bedeutung stellt die Analyse 
von sozialen Disparitäten im deutschen Bildungssystem dar. In diesem 
Beitrag werden Theorien und empirische Befunde zu den folgenden Fra- 
gestellungen aus diesem Themenkomplex präsentiert: Wie lässt sich der 
soziale Status von Familien operationalisieren? Wie ausgeprägt sind soziale 
Disparitäten (im Zeitverlauf und im internationalen Vergleich)? Wie lassen 
sich soziale Disparitäten erklären? 

Ein besonderer Fokus liegt dabei auf den Forschungsaktivitäten am 
Arbeitsbereich des Erstautors: insbesondere unterschiedliche Ansätze der 
Operationalisierung von sozialem Status sowie sekundäre Herkunftseffekte 
im Primar- und im Sekundarbereich. 


Schlagworte: soziale Disparitäten im Bildungssystem; primäre Her- 
kunftseffekte; sekundäre Herkunftseffekte; Kapitaltheorie nach Bourdieu; 
Armutsgefährdung; soziales Kapital; Ressourcengenerator 


Abstract 


The analysis of social disparities in the German education system continues 
to be an important topic of empirical educational research with particular 
importance for society as a whole. This paper presents theories and empir- 
ical findings on the following questions from this complex of topics: How 
can the social status of families be operationalized? How pronounced are 
social disparities (over time and in international comparison)? How can 
social disparities be explained? A special focus is on the research activi- 
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ties in the first author’s field of work: in particular, different approaches 
to operationalizing social status as well as secondary effects of origin in 
primary and secondary education. 


Keywords: social disparities in the education system; primary effects of 
social origin; secondary effects of social origin; Bourdieu’s theory of capital; 
poverty risk; social capital; resource generator 


1. Einleitung 


Seit Jahrzehnten ist national ebenso wie international empirisch umfassend 
belegt, dass der Bildungserfolg von Kindern in einem engen Zusammen- 
hang mit dem sozioökonomischen Status (socio-economic status; SES) ihrer 
Familien steht (Eriksson et al., 2021; OECD, 2019; Stubbe, Krieg, et al. 2020; 
Stubbe, Kleinkorres, et al. 2023; Weis et al., 2019). Der wissenschaftliche und 
politisch-gesellschaftliche Diskurs zu den Auswirkungen der Coronapande- 
mie im Bildungssystem richtet den Fokus nun erneut auf das altbekannte und 
überaus wichtige Thema der sozialen Disparitäten. Aktuelle Forschungser- 
gebnisse bestätigen die befürchtete Verstärkung divergierender Teilhabechan- 
cen zwischen sozial privilegierten und benachteiligten Kindern als Folge der 
coronabedingten Schulschließungen (Engzell et al., 2021; Weber et al., 2021b). 
Diese Entwicklung ist umso dramatischer, da ein gesamtgesellschaftlicher 
Konsens darüber bestehen dürfte, dass alle Kinder - unabhängig von ihrem 
Geschlecht, ihrem Migrationshintergrund oder dem sozialen Status ihrer 
Eltern - die gleichen Bildungschancen haben sollten (Grundgesetz für die 
Bundesrepublik Deutschland, Artikel 3.3 und The Universal Declaration of 
Human Rights, Artikel 26.1). Weder die mit der Bildungsexpansion einherge- 
hende gesamtgesellschaftliche Höherqualifizierung noch großangelegte För- 
derprogramme, wie das Aktionsprogramm „Aufholen nach Corona“ (Bun- 
desregierung, 2021), konnten jedoch bislang einen substantiellen Beitrag zur 
Verringerung der existierenden Ungleichheiten leisten (Blossfeld et al., 2019; 
Helbig et al., 2022). Umso zentraler ist die kontinuierliche wissenschaftlich 
fundierte Begleitung sozialer Disparitäten im Bildungssystem, um ungleich- 
heitsverstärkende Mechanismen identifizieren zu können und schulpraktische 
Implikationen für mehr Chancengleichheit abzuleiten. 

In diesem Beitrag werden Theorien und empirische Befunde zu den fol- 
genden Fragestellungen aus diesem Themenkomplex präsentiert: Kapitel 2: 
Wie lässt sich der soziale Status von Familien operationalisieren? Kapitel 3: 
Wie ausgeprägt sind soziale Disparitäten (im Zeitverlauf und im internatio- 
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nalen Vergleich)? Kapitel 4: Wie lassen sich soziale Disparitäten erklären? In 
Kapitel 5 wird ein kurzes Fazit gezogen. 


2. Wie lässt sich der soziale Status von Familien 
operationalisieren? 


Notwendige Voraussetzung für alle Analysen zum Thema SES ist selbstver- 
ständlich die reliable und valide Operationalisierung des zunächst theore- 
tisch definierten Konstrukts. Dass dies alles andere als trivial ist, wird in 
diesem Kapitel verdeutlicht, indem zuerst ein Überblick über die zugrunde- 
liegenden theoretischen Annahmen (Kap. 2.1) und die derzeit in der empi- 
rischen Bildungsforschung genutzten Instrumente (Kap. 2.2) gegeben wird. 
Anschließend wird in Kapitel 2.3 näher auf das theoretische Konstrukt der 
Einkommensarmut eingegangen, das in der soziologischen Forschung und 
im politisch-gesellschaftlichen Diskurs eine wichtige Rolle einnimmt, in den 
großen Schulleistungsstudien bislang jedoch nur vereinzelt Berücksichtigung 
fand. Bereits im Rahmen des Programme for International Student Assess- 
ment (PISA) 2000 (Baumert et al., 2000) wurde darauf hingewiesen, dass 
die Operationalisierung von sozialem Kapital im Rahmen von Large Scale 
Assessments deutlich herausfordernder ist als die von ökonomischem bezie- 
hungsweise kulturellem Kapital. In Kapitel 2.4 wird daher näher auf diesen 
Aspekt eingegangen und es werden Instrumente benannt, die es möglicher- 
weise erlauben, soziales Kapital in der empirischen Bildungsforschung valider 
zu erfassen, als dies in der Vergangenheit geschehen ist. 


2.1. Theoretische Grundlagen 


Um den sozialen Status von Familien zu analysieren, hat sich in der empiri- 
schen Bildungsforschung die Kapitaltheorie des Soziologen Pierre Bourdieu 
(1983) etabliert (Becker, 2017; Blossfeld et al., 2019). Die Kapitaltheorie unter- 
scheidet drei Kapitalarten (ökonomisches, kulturelles und soziales Kapital), 
anhand derer die familiale Ausstattung mit bildungsrelevanten Ressourcen 
gemessen werden kann. Unter dem ökonomischen Kapital versteht Bourdieu 
die finanziellen und materiellen Mittel einer Familie. Das kulturelle Kapital 
mit seinen drei Subfacetten (a) inkorporiertes Kulturkapital, (b) objektiviertes 
Kulturkapital und (c) institutionalisiertes Kulturkapital beschreibt, inwieweit 
Personen über (a) Wissen und Fähigkeiten, (b) kulturelle Besitztümer (z.B. 
Bücher) oder (c) schulische und akademische Titel verfügen. Die dritte Kapi- 
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talform - das soziale Kapital - gibt Auskunft über das soziale Beziehungsnetz- 
werk einer Familie. Neben der Anzahl der Beziehungen bestimmt auch die 
Kapitalausstattung der Personen innerhalb des Netzwerks über die Höhe des 
sozialen Kapitals der Familien. Ergänzend wird im Bildungskontext häufig auf 
die Arbeit von Coleman (1988) verwiesen, der zur Beschreibung des sozialen 
Kapitals explizit einen Fokus auf Bildungsprozesse legt und dessen Bedeutung 
für den schulischen Kompetenzerwerb hervorhebt. Für alle Kapitalarten gilt, 
dass diese ineinander transformierbar sind - gegebenenfalls unter Einsatz 
von Transformationskosten (Becker, 2017; Mikus et al., 2020). Ermöglichen 
Familien ihren Kindern beispielsweise einen höheren Schulabschluss durch 
die Finanzierung von Nachhilfe oder den Kauf ergänzender Lernmateri- 
alien, so wird ökonomisches Kapital in institutionalisiertes Kulturkapital 
umgewandelt. Andererseits besteht ein enger Zusammenhang zwischen dem 
kulturellen Kapital und dem ökonomischen Kapital: Personen mit mehr kul- 
turellem Kapital sind meist höherqualifiziert und können dadurch in besser 
bezahlten Berufen tätig sein. Entsprechend verfügen sie häufig auch über 
mehr ökonomisches Kapital. 


2.2. Gängige Indikatoren 


In diesem Abschnitt werden die in der empirischen Bildungsforschung zurzeit 
üblicherweise genutzten Indikatoren kurz dargestellt. 


Der Klassiker: Bücher im Haushalt 


Es ist sicherlich nicht übertrieben, die Frage nach der Anzahl der im Haushalt 
vorhandenen Bücher als den Klassiker zur Erfassung von SES in der Schulleis- 
tungsforschung zu bezeichnen (Engzell, 2021; Heppt et al., 2022; Schwippert, 
2019; Sieben & Lechner, 2019). Erhoben wird diese Information üblicherweise 
mit Hilfe einer fünfstufigen (z.B. PIRLS (Progress in International Reading 
Literacy Study) und TIMSS (Trends in International Mathematics and Science 
Study)) oder sechsstufigen (z.B. PISA, NEPS (National Educational Panel 
Study)) Likert-Skala. 

Aus theoretischer Perspektive erfasst die Variable primär das objekti- 
vierte Kulturkapital (Sieben & Lechner, 2019); liefert aber auch einen Hin- 
weis auf das ökonomische Kapital. Indirekt misst die Variable zusätzlich das 
inkorporierte (und institutionalisierte) Kulturkapital, da ein Zusammen- 
hang zwischen dem Bildungsniveau einer Familie und der Anzahl der im 
Haushalt verfügbaren Bücher besteht (Heppt et al., 2022). 
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Empirisch zeigt sich eine enge Koppelung zwischen der Anzahl der 
Bücher im Haushalt und den erreichten Kompetenzen von Schülerinnen 
und Schülern in den verschiedenen Domänen (Eriksson et al., 2021; Heppt 
et al., 2022). Die Korrelation zwischen der im Rahmen von IGLU (Internati- 
onale Grundschul-Lese-Untersuchung) 2006 erhobenen Lesekompetenz und 
der Anzahl der Bücher beträgt beispielsweise r = .32 (Schülerangabe) bezie- 
hungsweise r = .33 (Elternangabe). Zudem zeigt sich auch eine relativ hohe 
Korrelation zwischen der Büchervariable und anderen SES-Indikatoren. So 
liegt die Korrelation mit dem HISEI (s. u.) für IGLU 2006 bei r = .33 (Schü- 
lerangabe) beziehungsweise r = .47 (Elternangabe) (Stubbe & Goy, 2013). Zu 
ähnlichen Ergebnissen kommen auch Eriksson et al. (2021), die auf Basis 
von PISA 2018-Daten die Anzahl der im Haushalt vorhandenen Bücher 
gegenüber anderen SES-Indikatoren als stärksten Prädiktor der Leistung in 
Mathematik, Naturwissenschaften und Lesen herausstellen. 

Aus erhebungsökonomischer Sicht ist die Frage nach der Anzahl der 
Bücher somit ausgesprochen effektiv: Sie kann bereits Grundschulkindern 
gestellt werden, sie kann schnell beantwortet und einfach ausgewertet wer- 
den, sie ist theoretisch fundiert und sie weist relativ hohe Korrelationen mit 
anderen SES-Indikatoren auf. Dennoch sollte keinesfalls außer Acht gelassen 
werden, dass mit diesem einfachen Merkmal versucht wird, ein komplexes 
theoretisches Konstrukt zu erfassen, was zwangsläufig einen substanziellen 
Informationsverlust bedeutet, da die unterschiedlichen Kapitalarten nicht 
differenziert gemessen werden. 


Bildungs- und Berufsabschlüsse 


Das institutionalisierte und damit indirekt auch das inkorporierte Kulturka- 
pital kann in Form der erworbenen Abschlüsse gemessen werden. Aufgrund 
der großen Vielfalt werden Berufsabschlüsse üblicherweise mit offenen Fragen 
erfasst, während Bildungsabschlüsse auch mit Hilfe von geschlossenen Fragen 
erhoben werden können. Da beide Konstrukte zunächst ein nominales Ska- 
lenniveau aufweisen, müssen diese rekodiert werden, um Aussagen über die 
Höhe des mit den jeweiligen Abschlüssen verbundenen kulturellen Kapitals 
treffen zu können. Dazu stehen unterschiedliche Indizes zur Verfügung, die 
größtenteils für internationale Vergleichsstudien entwickelt wurden. 

Für Analysen des Berufsstatus müssen in einem ersten Schritt die offenen 
Angaben mit Hilfe der Nominalskala International Standard Classification 
of Occupations (ISCO) kodiert werden. Dazu wird jedem Beruf ein vierstel- 
liger Code zugewiesen, der allerdings noch keine Aussagen über den Status 
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eines Berufes erlaubt (Hoffmann, 2003). Diese Codes lassen sich dann aller- 
dings problemlos in die verschiedenen Indizes des Berufsstatus rekodieren. 

Der International Socio-Economic Index of Occupational Status (ISEI) 
gibt an, wie gut ein Beruf geeignet ist, um die Ausbildung einer Person in 
Einkommen umzuwandeln. Die Skala ist ebenfalls eindimensional und 
nimmt ganzzahlige Werte zwischen 10 und 90 an, wobei hohe Werte einen 
hohen sozioökonomischen Status der Berufe kennzeichnen (Ganzeboom et 
al., 1992; Ganzeboom & Treiman, 1996, 2010). In der empirischen Bildungs- 
forschung wird häufig der höchste ISEI im Haushalt (HISEI) genutzt. 

Erikson et al. (1979) teilen Berufe in distinkte Gruppen ein, die sich in 
Hinblick auf unterschiedliche Dimensionen (z.B. Art der Tätigkeit, ange- 
stellte oder selbstständige Tätigkeit, Weisungsbefugnis) durch eine hohe 
interne Homogenität und eine hohe externe Heterogenität auszeichnen. Bei 
diesen sogenannten EGP-Klassen handelt es sich um eine Nominalskala. 

Welcher dieser Indizes für eine bestimmte Fragestellung genutzt wer- 
den sollte, hängt zum einen davon ab, welche theoretischen Annahmen 
zugrunde gelegt werden und auch davon, welche statistischen Eigenschaften 
jeweils gewünscht werden (Ganzeboom & Treiman, 2003). 

Als überraschend herausfordernd erweist sich die Operationalisierung 
von Bildungsabschlüssen (Hoffmeyer-Zlotnik, 2003). In der empirischen 
Bildungsforschung hat sich in den vergangenen Jahren dafür die von der 
UNECSO entwickelte International Standard Classification of Education 
(ISCED) (UNESCO, 2003) als Standard etabliert, obwohl sie in der Praxis 
insbesondere für internationale Vergleiche nur eingeschränkt geeignet ist. 
Schröder und Ganzeboom (2014) kommen in ihrer Zusammenfassung des 
Forschungsstandes zu dem Schluss, die ISCED-97-Kategorisierung sei nicht 
differenziert genug, um beispielsweise detailliert zwischen beruflichen und 
akademischen Bildungsabschlüssen der sekundären und tertiären Bildung 
zu unterscheiden. 


Weitere Variablen 


Es gibt eine ganze Reihe weiterer Variablen, die in aktuellen Bildungsstu- 
dien zum Einsatz kommen, um den sozialen Status von Schülerinnen und 
Schülern zu operationalisieren: Besitztümer des Haushalts werden als Indi- 
katoren des ökonomischen Kapitals beziehungsweise des objektivierten 
Kulturkapitals genutzt; Angaben zu Freizeitaktivitäten können Aufschluss 
über das inkorporierte Kulturkapital geben; Fragen zu Art und Intensität der 
Eltern-Kind-Beziehung erlauben Rückschlüsse auf das soziale Kapital inner- 
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halb der Familie und vereinzelt wird das ökonomische Kapital zusätzlich mit 
Hilfe des Brutto-Haushaltseinkommens gemessen. 


Indizes der sozialen Herkunft: Sozialindex, ESCS 


Es sollte deutlich geworden sein, dass es sich beim SES um ein komplexes 
mehrdimensionales Konstrukt handelt. Ist das Ziel aber nicht eine verglei- 
chende Analyse der unterschiedlichen Teilaspekte des SES, stellt sich die 
Frage, ob die unterschiedlichen Indikatoren zu einem Index zusammengefasst 
werden können. 

Im Rahmen der Hamburger Längsschnittstudie KESS 4 (Kompetenzen 
und Einstellungen von Schülerinnen und Schülern) wurde dieser Frage 
empirisch mit Hilfe einer Rasch-Skalierung nachgegangen. Pietsch et al. 
(2006) konnten zeigen, dass sich die unterschiedlichen Indikatoren auf einer 
eindimensionalen Skala abbilden lassen. Dieser sogenannte Sozialindex 
wurde seitdem auch in anderen Studien eingesetzt (z.B. Buddeberg et al., 
2009; Stubbe & Bos, 2008; Stubbe, Krieg, et al. 2023). 

Auch im Rahmen von PISA kommt mit dem ESCS (Index of Economic, 
Social and Cultural Status) ein Index zum Einsatz, der unterschiedliche 
Aspekte des SES von Schülerfamilien zusammenfasst (Mang et al., 2021). 
Der offensichtliche Vorteil dieser Indizes ist es, dass für Analysen eine ein- 
zige Variable mit metrischem Skalenniveau zur Verfügung steht, in der 
unterschiedlichste Aspekte des SES zusammengefasst sind. Die Bildung 
dieser Indizes ist möglich, weil die verschiedenen Indikatoren relativ hoch 
miteinander korrelieren (Eriksson et al., 2021; Heppt et al., 2022; Sieben & 
Lechner, 2019). 


Empirische Trennung von ökonomischem und kulturellem Kapital 


Nichtsdestotrotz sind auch komplexere Fragestellungen forschungspraktisch 
relevant, die eine empirische Differenzierung der einzelnen Facetten des SES 
von Familien notwendig machen. So könnte beispielsweise untersucht werden, 
ob Kinder aus Akademikerhaushalten, die nur über ein geringes Einkommen 
verfügen (z.B. wegen Arbeitslosigkeit), höhere oder niedrigere schulische 
Kompetenzen aufweisen als Schülerinnen und Schüler aus bildungsfernen 
Elternhäusern, die finanziell gut gestellt sind. Anders ausgedrückt: Ist für 
den Bildungserfolg von Kindern das ökonomische oder das kulturelle Kapital 
wichtiger? 

Eriksson et al. (2021) konnten diesbezüglich auf Basis von PISA 2018- 
Daten zeigen, dass in Abhängigkeit vom Entwicklungsstandes eines Staates 
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der Zusammenhang zwischen dem kulturellen beziehungsweise ökonomi- 
schen Kapital und der Leistung von Schülerinnen und Schülern divergiert. 
In weniger entwickelten Staaten war die Leistung der Jugendlichen demnach 
weniger stark mit dem kulturellen Kapital verbunden und dafür stärker mit 
dem ökonomischen Kapital. In hochentwickelten Staaten waren hingegen 
gegenteilige Effekte zu beobachten. 

Bereits Stubbe und Goy (2013) stellten eine Skala vor, die die getrennte 
Analyse dieser beiden Kapitalarten ermöglicht, indem für eine Liste von 22 
Aktivitäten beziehungsweise Besitztümer (z.B. „eine mindestens einwöchige 
Urlaubsreise im Jahr“, „täglich frisches Obst und Gemüse essen“, „Klavier“, 
„Brettspiele“) gefragt wird, ob die Familien (1) dies tun beziehungsweise 
haben, (2) sich dies zurzeit nicht leisten können oder (3) dies aus anderen 
Gründen nicht tun beziehungsweise haben. Diese Skala wurde in den ver- 
gangenen Jahren im Rahmen der nationalen Erweiterungen von TIMSS und 
IGLU eingesetzt (zu empirischen Befunden siehe Kap. 3.2). 


2.3. Armutsgefährdung 


Spätestens mit den Armuts- und Reichtumsberichten der Bundesregierung 
(Bundesministerium für Arbeit und Soziales, 2001, 2021) ist das Thema der 
Einkommensarmut auch in der Bundesrepublik in den Fokus der Öffentlich- 
keit gerückt. Insbesondere die Frage der Kinderarmut ist dabei von Bedeu- 
tung, zumal aktuelle Daten aus dem Jahr 2021 zeigen, dass 16.2 Prozent der 
Kinder in Deutschland von Armut betroffen sind (Statistisches Bundesamt, 
2022a). Bei Kindern, die in Haushalten aufwachsen, in denen kein Erziehungs- 
berechtigter erwerbstätig ist, liegt die Armutsgefährdungsquote sogar bei 68.5 
Prozent. In einem Zweiverdienerhaushalt verringert sich die Armutsgefähr- 
dungsquote von Kindern auf 1.4 Prozent, wenn beide Erziehungsberechtigte 
in Vollzeit arbeiten (Bundesministerium für Arbeit und Soziales, 2021, S. 56). 
Außerdem überproportional häufig von Armut betroffen sind Alleinerzie- 
hende sowie Familien mit drei oder mehr Kindern (Bundesministerium für 
Arbeit und Soziales, 2021, S. 477 ff.). 

Trotz der offensichtlichen (bildungs-)politischen Relevanz wurde die 
Einkommensarmut von Schülerfamilien in den großen Schulleistungsstu- 
dien zu Beginn des Jahrtausends nicht berücksichtigt. Erstmals im Jahr 2007 
wurde im Rahmen von IGLU Belgien und TIMSS Deutschland das Armuts- 
risiko im Rahmen von Large Scale Assessments erhoben (Bos et al., 2010). 
Als armutsgefährdet gelten entsprechend der Definition der Europäischen 
Union (Bardone & Guio, 2005) Haushalte, die über weniger als 60 Prozent 
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des medianen Nettoäquivalenzeinkommens in dem jeweiligen Staat verfü- 
gen (Berechnungsverfahren: Bos et al., 2010). 

Auch wenn theoriekonform ein enger Zusammenhang zwischen 
Armutsgefährdung und anderen SES-Indikatoren vorliegt (Stubbe, Krieg, et 
al. 2020), besteht ein wissenschaftlicher Mehrwert in der Berücksichtigung 
dieser Variable, da in Deutschland im Jahr 2021 immerhin 8.6 Prozent der 
Familien mit hohem kulturellen Kapital von Armut bedroht waren (Statisti- 
sches Bundesamt, 2022b). 


2.4. Soziales Kapital 


Die Operationalisierung von sozialem Kapital ist in der Umfrageforschung 
deutlich herausfordernder, als die Messung der übrigen Kapitalformen. 
Soziales Kapital manifestiert sich in den sozialen Beziehungen, über die ein 
Mensch verfügt. Aus Sicht der empirischen Bildungsforschung sind dabei vor 
allem jene Beziehungen von Interesse, die zur Steigerung des Bildungserfolges 
genutzt werden können. 


Netzwerkanalyse 


Es wäre folglich naheliegend, die sozialen Beziehungsstrukturen von Schü- 
lerfamilien zu erfassen und netzwerkanalytisch auszuwerten. Ausgehend von 
Bourdieus Definition von sozialem Kapital könnten ego-zentrierte Netzwerke 
erhoben werden, um anschließend das ökonomische und kulturelle Kapital 
der Alteri zu messen (Jansen, 2006 zum Verfahren der Netzwerkanalyse). 
Aus diesen Daten ließe sich dann ein Index konstruieren, der angibt, wie viel 
Kapital insgesamt in Egos Netzwerk vorhanden ist und somit als Indikator für 
das individuelle soziale Kapital genutzt werden kann. Der Erhebungsaufwand 
wäre in der Forschungspraxis allerdings unverhältnismäßig groß und im 
Rahmen von Large Scale Assessments überhaupt nicht zu leisten. 

Werden hingegen nur sehr kleine Stichproben erhoben, ist die Analyse 
sozialer Netze durchaus ein geeignetes Verfahren, um soziales Kapital zu 
untersuchen. Beispielsweise können soziale Netzwerke innerhalb von Schul- 
klassen erfasst werden, also ein kleiner aber aus Sicht der Bildungsforschung 
wichtiger Ausschnitt aus dem Gesamtnetzwerk der jeweiligen Schülerinnen 
und Schüler (Lorenz & Stubbe, 2021; Stubbe, Pietsch, et al. 2007). Daten 
dieser Art erlauben unter anderem Analysen zum Peer Learning, also dem 


1 Selbst wenn jede Familie nur 30 Bekannte nennt, würde dies ausgehend von 5000 Befragten 
bedeuten, dass Daten über 150.000 Alteri erhoben werden müssten. 


22 


Unterstützungsverhalten beim Lernen beziehungsweise bei den Hausaufga- 
ben innerhalb einer Klasse. 


Positions- und Ressourcengenerator 


In der empirischen Sozialforschung gibt es aber auch Verfahren, die das sozi- 
ale Kapital ohne Einsatz netzwerkanalytischer Verfahren messen. 

Der Positionsgenerator (Lin & Dumin, 1986) gibt 20 Berufe vor, für die 
die Befragten angeben sollen, welche davon im eigenen Bekanntenkreis zu 
finden sind. Das Ausmaß des verfügbaren sozialen Kapitals einer Person 
ergibt sich dann aus dem Prestige der genannten Berufe. Zwar erfasst dieses 
Instrument einen größeren Ausschnitt des sozialen Netzwerkes (als bspw. 
den engsten Familienkreis), aber dennoch nur Teilaspekte, die sich aus der 
beruflichen Stellung von Personen ergeben. 

Mit dem Ressourcengenerator (Snijders, 1999; van der Gaat & Snijders, 
2005) wird hingegen zunächst für 20 Items ermittelt, ob die/der Befragte 
selbst oder jemand, den sie/er persönlich kennt, bestimmte Eigenschaften 
besitzt (z.B. „kann geschickt Haushaltsgeräte reparieren“, „hat Abitur“). 
Mit weiteren 17 Items wird anschließend erfasst, ob die/der Befragte jeman- 
den kennt, der ihr/ihm bei bestimmten Dingen helfen kann (z.B. „kann bei 
einem Umzug helfen“, „kann bei einem Konflikt mit Familienmitgliedern 
beraten“). Zusammengefasst ermöglichen diese Items eine Einschätzung des 
Kapitals, das einer Person innerhalb ihres sozialen Netzwerkes zur Verfü- 
gung steht. Van der Gaat und Snijders (2005) betonen, dass der Ressourcen- 
generator relativ schwach mit anderen SES-Indikatoren korreliert, was die 
Vermutung nahelegt, dass dieses Konstrukt in der empirischen Bildungs- 
forschung zusätzliche Erklärungskraft für schulische Kompetenzen besitzen 
könnte. 

Eine von Stubbe und Lorenz (2017) angepasste Version dieser Skala - 
bestehend aus 36 Items - wurde im Rahmen der nationalen Erweiterungen 
von TIMSS 2015 und IGLU 2016 erprobt. Auf Basis der empirischen Befunde 
(siehe Kap. 3.2) wurde für TIMSS 2019 und IGLU 2021 eine auf 18 Items 
gekürzte Version des Ressourcengenerators entwickelt, so dass inzwischen 
im Rahmen der empirischen Bildungsforschung auch das soziale Kapital 
von Familien mit einem vertretbaren Aufwand im Sinne der Theorie von 
Bourdieu operationalisiert werden kann. 
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3. Wie ausgeprägt sind soziale Disparitäten (im Zeitverlauf 
und im internationalen Vergleich)? 


In diesem Kapitel wird zunächst ein allgemeiner Überblick über den aktu- 
ellen Forschungsstand zum Thema soziale Disparitäten im Bildungssystem 
gegeben (Kap. 3.1). Im Anschluss werden empirische Befunde zu denjenigen 
Variablen aus Kapitel 2 präsentiert, die in der Bildungsforschung bislang 
unterrepräsentiert sind (Kap. 3.2). 


3.1. Forschungsstand 


Seit Jahrzenten verdeutlichen nationale ebenso wie internationale Ergebnisse 
der empirischen Bildungsforschung, dass der Bildungserfolg von Kindern in 
einem engen Zusammenhang mit dem sozialen Status ihrer Herkunftsfa- 
milien steht (Berkemeyer et al., 2017; Eriksson et al., 2021; Hußmann et al., 
2017; OECD, 2019; Sirin, 2005; Stubbe, Krieg, et al. 2020; Weis et al., 2019). 
Die daraus resultierenden Unterschiede hinsichtlich des domänenübergrei- 
fenden Kompetenzerwerbs, der Teilhabechancen und damit auch der Gestal- 
tung von Bildungsbiographien wurden ebenfalls breit dokumentiert (Anger 
& Plünnecke, 2021; Mahler & Kölm, 2019; Müller & Ehmke, 2016; Stubbe, 
Krieg, et al. 2020; Tophoven et al., 2017; Weis et al., 2019). Maßgeblich für 
den wissenschaftlichen und öffentlichen Diskurs zu sozialen Ungleichhei- 
ten im Bildungssystem sind die Ergebnisse der regelmäßig durchgeführten 
Schulleistungsstudien, an denen Deutschland seit den späten 1990er-Jahren 
beteiligt ist: PIRLS/IGLU, TIMSS, PISA, NEPS sowie der Bildungstrend des 
Instituts zur Qualitätsentwicklung im Bildungswesen (IQB). 

Für den Primarbereich belegen die Ergebnisse der aktuellen TIMS-Stu- 
die, dass die sozialen Disparitäten im Bereich der naturwissenschaftlich-ma- 
thematischen Bildung zwischen 2007 und 2019 in Deutschland nicht sig- 
nifikant verringert werden konnten (Stubbe, Krieg, et al. 2020). Nach wie 
vor erreichen deutsche Schülerinnen und Schüler aus sozioökonomisch gut 
gestellten Familien folglich signifikant höhere mathematische und natur- 
wissenschaftliche Kompetenzen als Kinder aus soziodkonomisch benachtei- 
ligten Familien. Auch im Fach Deutsch besteht weiterhin eine enge Kopp- 
lung zwischen der sozialen Herkunft und der Leseleistung in Deutschland. 
Im Vergleich zu den Erhebungen von 2001, 2006 und 2011 fielen in IGLU 
2016 die Unterschiede in der Lesekompetenz sogar signifikant höher aus. 
Nur in drei Teilnehmerstaaten (Slowakei, Ungarn und Slowenien) verstärk- 
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ten sich zwischen 2001 und 2016 die sozialen Disparitäten noch mehr als in 
Deutschland (Hußmann et al., 2017). 

Im Sekundarschulbereich deutet sich im Trend hingegen eine leichte 
Verringerung der sozialen Unterschiede in der Lesekompetenz an, wie die 
Ergebnisse der letzten PISA-Erhebung aus dem Jahr 2018 nahelegen. Insbe- 
sondere diejenigen Jugendlichen, deren Eltern in Berufen der EGP-Klassen 
V, VI und VII tätig sind, konnten 2018 ihre Lesekompetenz im Vergleich zur 
ersten PISA-Erhebung im Jahr 2000 signifikant verbessern. Dennoch waren 
bei PISA 2018 immer noch 17.2 Prozent der Leistungsunterschiede durch 
den sozioökonomischen und -kulturellen Status (Prädiktorvariable ESCS?) 
erklärbar (OECD-Durchschnitt: 12.0%). Unter anderem in Kanada, Norwe- 
gen, Finnland und Dänemark konnte hingegen ein geringerer der Anteil der 
Leistungsdifferenz im Lesen auf den sozioökonomischen und -kulturellen 
Status zurückgeführt werden (Weis et al., 2019). 

Zusätzlich zum internationalen Vergleich im Rahmen von TIMSS, IGLU 
und PISA ermöglicht der IQB-Bildungstrend Analysen zu sozialen Dispari- 
täten auf Ebene der Lander der Bundesrepublik Deutschland. Als Maß für 
den Zusammenhang zwischen der domänenspezifischen Kompetenz und 
dem sozioökonomischen Status der Herkunftsfamilie (HISEI) wird der sozi- 
ale Gradient (Steigungskoeffizient in der entsprechenden linearen Regres- 
sion) angeben; wobei höhere Werte eine stärkere Kopplung widerspiegeln. 
In den Kompetenzbereichen Mathematik und Deutsch (Lesen, Zuhören und 
Orthografie) am Ende der vierten Jahrgangsstufe haben sich demnach bun- 
desweit zwischen 2011 (bzw. 2016) und 2021 die sozialen Disparitäten signi- 
fikant verstärkt (Sachse et al., 2022). Für die Fächer Mathematik, Biologie, 
Chemie und Physik in der Sekundarstufe I (9. Jahrgangsstufe) liegen aktuell 
differenzierte Ergebnisse des IQB-Bildungstrends für das Jahr 2018 vor, die 
Aussagen zum sozialen Gradienten im Ländervergleich zulassen. Demnach 
variieren 2018 die sozialen Gradienten in den genannten Fächern bundes- 
weit zwischen 34 und 39 Punkten. Das Schlusslicht bildet nominell in allen 
Domänen Berlin, während sich Brandenburg, Niedersachsen und Thürin- 
gen vergleichsweise geringe soziale Disparitäten feststellen lassen (Mahler 
& Kölm, 2019). 

Mit dem Nationalen Bildungspanel (NEPS) liegt eine umfassende längs- 
schnittliche Datenbasis vor, die die Analyse von Bildungsverläufen aus inter- 
disziplinärer Perspektive ermöglicht. Auf Grundlage von NEPS-Daten sind 
seit Beginn der Studie im Jahr 2009 ebenfalls zahlreiche Ergebnisse zu sozia- 
len Ungleichheiten in den Bildungsverläufen von Kindern, Jugendlichen und 
Erwachsenen veröffentlicht worden. Bereits im Kleinkind- und Vorschul- 


2 Zur Erklarung s. Kapitel 2.2. 
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alter können soziale Ungleichheitsprozesse in den Fähigkeiten der Kinder 
beobachtet werden, die sich während ihrer Schulzeit in fächerübergreifen- 
den Kompetenzunterschieden weiter manifestieren und im Schulverlauf 
weitestgehend stabil bleiben (Attig & Weinert, 2020; Kähler et al., 2021; Lin- 
berg et al., 2020; Passaretta et al., 2022; Schneider & Linberg, 2022; Skopek & 
Passaretta, 2021). Zudem wird der Zusammenhang zwischen Ubergangsent- 
scheidungen im Bildungsverlauf und der sozialen Herkunft diskutiert (Esser 
& Hoenig, 2018; Esser & Seuring, 2020; Lindemann & Gangl, 2019; Lorenz, 
2017; Omerogullari & Gläser-Zikuda, 2021). 

Die seit dem Schuljahr 2019/2020 durch die Coronapandemie beding- 
ten Änderungen im Schulalltag (u.a. Schulschließungen, Distanzunterricht) 
stellen das Bildungssystem vor neue schwerwiegende Herausforderungen; 
insbesondere im Hinblick auf die potentielle Verstärkung sozialer Disparitä- 
ten (Hurrelmann & Dohmen, 2020). Für dieses junge und dynamische For- 
schungsfeld legen Helm et al. (2022) eine Übersicht zur aktuellen Befund- 
lage zu möglichen Lerneinbußen und steigender Bildungsbenachteiligung 
während der Pandemie vor (siehe auch Helm et al., 2021 sowie Zierer, 2021). 
Demnach weisen tatsächlich zahlreiche Studien auf eine Verstärkung diver- 
gierender Teilhabechancen zwischen sozial privilegierten und benachteilig- 
ten Kindern hin und bestätigen damit die befürchtete Steigerung sozialer 
Disparitäten (Dietrich et al., 2020; Engzell et al., 2021; Maldonado & De 
Witte, 2022; Reimer et al., 2021; Rose et al., 2021; Weber et al., 2021a, 2021b; 
Wößmann et al., 2021). Dietrich et al. (2020) konnten beispielsweise zeigen, 
dass soziökonomisch benachteiligte Schülerinnen und Schüler während der 
Schulschließungen im Frühjahr 2020 weniger Zeit fürs Lernen aufbrach- 
ten als ihre sozial besser gestellten Klassenkameradinnen und -kameraden. 
Wößmann et al. (2021) ergänzen, dass sich Kinder aus nicht akademischen 
Haushalten im Lockdown-bedingten Homeschooling schlechter konzen- 
trieren konnten, weniger effektiv lernten und seltener an Fördermaßnahmen, 
wie Förder- oder (kostenlosem) Nachhilfeunterricht, teilnahmen. Hinsicht- 
lich möglicher coronabedingter Unterschiede in der Leistungsentwicklung 
weisen unter anderem Engzell et al. (2021), Rose et al. (2021) und Weber et 
al. (2021a, 2021b) darauf hin, dass der Lernrückstand sozial benachteilig- 
ter Kinder und Jugendlicher substanziell größer ausfiel als der Lernverlust 
der privilegierten Mitschülerinnen und Mitschüler. Auf Schulebene können 
Maldonado und De Witte (2020) zeigen, dass an Schulen mit einer sozioöko- 
nomisch benachteiligten Schülerklientel größerer Lernverluste zu beobach- 
ten waren. In weitaus weniger Arbeiten konnte hingegen keine zusätzliche 
Bildungsbenachteiligung (z.B. in Form von gestiegenen Leistungsunter- 
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schieden in Abhängigkeit des sozioökomischen Hintergrunds) festgestellt 
werden (Depping et al., 2021; Ludewig et al., 2022). 

Daher verständigte sich die deutsche Kulturministerkonferenz im Feb- 
ruar 2021 darüber, „mit gezielten Fördermaßnahmen in Form von Diffe- 
renzierung, Intensivierung und ... zusätzlichen Angeboten ... vorhandene 
Lernrückstände insbesondere bei benachteiligten Schülerinnen und Schü- 
lern auszugleichen“ (KMK, 2021, S. 1). Das nachfolgend vom Bundeskabi- 
nett beschlossene Aktionsprogram „Aufholen nach Corona“ (Bundesregie- 
rung, 2021) wurde von Helbig et al. (2022) evaluiert. Die Autoren und die 
Autorin kommen in Hinblick auf die Fokussierung des Aktionsprograms 
auf die Förderung der besonders benachteiligten Gruppen zu dem Schluss, 
„dass [bestimmte Programmelemente] - auch innerhalb der einzelnen 
Schulen - eher nicht den Schüler*innengruppen mit den größten Bedarfen 
zugutegekommen sind“ (Helbig et al., 2022, S. 273). Als Begründung wird 
einerseits angeführt, dass die zur Verfügung stehenden Mittel in den meis- 
ten Ländern per „Gießkannenprinzip“ verteilt wurden, ohne Leistungs-, 
Sozial- oder Schulformkriterien (und somit die Bedarfe einzelner Schulen) 
zu berücksichtigten (ebd.). Zudem setzten verschiedene Fördermaßnahmen 
(z.B. Lernferien) ein (finanzielles) Engagement der Eltern voraus - wodurch 
Kinder aus sozial benachteiligten Familien seltener teilnahmen. 


3.2. Armutsgefährdung, ökonomisches vs. kulturelles Kapital und 
soziales Kapital 


Stubbe, Krieg, et al. (2020) betrachten die mathematischen Kompetenzen 
von deutschen Viertklässlerinnen und Viertklässlern in Abhängigkeit von 
der Armutsgefährdung (siehe Kap. 2.3) der Familie sowie des Berufsstatus 
der Erziehungsberechtigten (EGP-Klassen) im Trend von TIMSS 2007 bis 
TIMSS 2019 (siehe Abb. 1). Theoriekonform zeigt sich, dass Kinder aus nicht 
armutsgefährdeten Familien der sogenannten service class (EGP-Klassen I 
und II) die höchsten und Kinder aus armutsgefährdeten Familien der soge- 
nannten working class (EGP-Klassen V, VI, VII) die geringsten Kompetenzen 
aufweisen. 
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Abbildung 1: Mittlere mathematische Kompetenzen nach Armutsgefährdung und EGP- 
Klasse in Deutschland bei TIMSS 2007, 2011, 2015 und 2019 
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‚Abweichungen zu den im Rahmen von TIMSS 2015 berichteten Werten (Stubbe, Schwippert & Wendt, 2016) ergeben sich daraus, dass dort für 2015 mit 
imputierten Daten gearbeitet wurde 


IEA: Trends in International Mathematics and Science Study © TIMSS 2019 


Quelle: Stubbe, Krieg, Beese & Jusufi, 2020, Abb. 9.12 


Sehr ähnliche Werte im mittleren Kompetenzbereich erreichen diejenigen 
Schülerinnen und Schüler, die gemessen an einem der beiden Indikato- 
ren einen höheren sozialen Status und nach dem anderen Indikator einen 
niedrigeren sozialen Status besitzen. Die Analysen zeigen somit, dass die 
gleichzeitige Betrachtung verschiedener SES-Indikatoren einen zusätzlichen 
Erkenntnisgewinn bringen kann. 

Dies ist beispielsweise auch mit dem von Stubbe und Goy (2013) vorge- 
stellten Instrument (siehe Kap. 2.2) zur empirischen Trennung von ökono- 
mischem und kulturellem Kapital möglich. Erstmals für eine repräsentative 
Stichprobe wurde die Skala im Rahmen der nationalen Erweiterung von 
TIMSS 2015 eingesetzt (Stubbe & Lorenz, 2017). Wie auch in der ursprüngli- 
chen Studie konnten mit Hilfe von Latent Class-Analysen vier ähnlich große 
Gruppen (23.1 % bis 26.4 %) identifiziert werden, die sich in der Ausprägung 
des ökonomischen beziehungsweise kulturellen Kapitals unterscheiden 
(gering/hoch, hoch/gering, gering/gering, hoch/hoch). 

Tabelle 1 zeigt die Ergebnisse der durchgeführten Regressionsanalysen 
zur Erklärung der mathematischen und naturwissenschaftlichen Kompe- 
tenzen durch diese Skala (Modelle 1 und 3) sowie durch diese Skala und 
weitere Indikatoren des sozialen Status (Modelle 2 und 4). 
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Tabelle 1: Regressionsanalysen zur Erklärung der mathematischen und 
naturwissenschaftlichen Kompetenzen bei TIMSS 2015 durch unterschiedliche 
Indikatoren des ökonomischen und kulturellen Kapitals 


Mathematics Science 
achievement achievement 
Model 1 Model 2 Model 3 Model 4 


Constant 492.7 490.2 496.5 495.5 
Class! 

class 1 (only economic capital low) 24.6 10.3 26.3 9.7 

class 2 (only cultural capital low) 31.2 17.6 34.5 18.4 

class 4 (economic and cultural capital high) 62.5 31.0 69.1 33.0 
Parent's highest educational degree? 

lower secondary degree — 12.9 — 18.1 

university degree n.s. n.s. 
EGP class? 

service class n.s. n.s. 

working class n.s. n.s. 
Highest ISEI 0.5 0.5 
Poverty risk — 14.8 — 16.0 
Number of books at home* 

at most 10 books — 29.0 — 36.4 

more than 200 books 17.2 16.8 
R? 0.11 0.22 0.12 0.25 


All coefficients are unstandardized and statistically significant (p < .01). 

1 reference group: class 3 (economic and cultural capital low) 

? reference group: no university degree but higher than lower secondary degree 
3 reference group: intermediate class 

4 reference group: 11-200 books 


Quelle: Stubbe & Lorenz, 2017 


Als Referenzgruppe wurden diejenigen Schülerinnen und Schüler ausge- 
wählt, bei denen beide Kapitalformen gering ausgeprägt sind. Werden keine 
weiteren Variablen berücksichtigt, erreichen Viertklässlerinnen und Viert- 
klässler, in deren Familien nur das ökonomische Kapital gering ausgeprägt 
ist, eine um 24.6 Punkte höhere Mathematikkompetenz.’ Für die Gruppe, in 
der nur das kulturelle Kapital gering ausgeprägt ist, beträgt dieser Wert 31.2. 
Einen Leistungsvorsprung von 62.5 Punkten - und damit von deutlich mehr 
als einem Lernjahr (Wendt et al., 2017) - weisen Kinder auf, bei denen zu 
Hause sowohl ökonomisches als auch kulturelles Kapital in hohem Umfang 
vorhanden sind. Das Modell 1 erklärt immerhin 11 Prozent der Varianz der 
abhängigen Variable. 


3 Die Ergebnisse für die naturwissenschaftliche Kompetenz fallen ähnlich aus. 


29 


Werden weitere Indikatoren des sozialen Status in den Regressionsanaly- 
sen berücksichtigt, zeigt sich, dass die Leistungsunterschiede zwischen den 
vier beschriebenen Gruppen zwar erwartungskonform geringer ausfallen 
aber weiterhin signifikant sind. 

Wie ausführlich dargestellt, stehen in der empirischen Forschung zahlrei- 
che Indikatoren für das ökonomische und kulturelle Kapital zur Verfügung, 
von denen im Rahmen von Large Scale Assessment (insbesondere in den 
nationalen Ergänzungen) auch regelmäßig mehrere zum Einsatz kommen, 
während hinsichtlich des sozialen Kapitals bestenfalls nach den innerfamili- 
alen Beziehungen gefragt wird. Im Rahmen von TIMSS 2015 wurde erstmals 
die von Stubbe und Lorenz (2017) überarbeitete Fassung des Ressourcen- 
gerators für eine repräsentative Stichprobe eingesetzt. Die Analysen haben 
gezeigt, dass sechs Subskalen dieses Konstruktes unterschieden werden kön- 
nen, je nachdem welche Eigenschaften die Personen im sozialen Netzwerk 
der Befragten aufweisen (siehe Tab. 2). Im Folgenden werden Analysen mit 
allen Subskalen präsentiert, wobei insbesondere bei der dritten Dimension 
(Connections/Beziehungen) einschränkend festgehalten werden muss, dass 
die Reliabilität unbefriedigend ist. 


Tabelle 2: Subskalen des Ressourcengenerators (TIMSS 2015) 


Dimension of Cron- 
the construct No. of bach’s 
‘social capital’ Description items M SD Example item Alpha 
Economic Persons with high economic 6 0.53 0.31 someone who owns 0.72 
capital capital are part of the shares for at 
personal network least 10,000 Euros 
Cultural Persons with high cultural 7 0.65 0.27 someone who reads 0.71 
capital capital are part of the scientific papers or 
personal network books on a regular basis 
Connections Persons that have connections 3 0.32 0.33 someone who is active in 0.52 
to the public sector are part a political party 
of the personal network 
Advice Persons that can offer advice 7 0.65 0.31 someone who can give 0.77 
on different topics are part advice on matters of law 


of the personal network 


Everyday Persons that can offer support 6 0.85 0.21 someone who can babysit 0.66 
support for everday tasks are part for your children 
of the personal network 


Manual or Persons that can offer support 5 0.85 0.22 someone who can repair 0.61 
technical for manual or technical tasks your car, bike, etc. 
support are part of the personal network 


Quelle: Stubbe & Lorenz, 2017 
Tabelle 3 zeigt die Korrelationen der sechs Subskalen untereinander, die 


überwiegend in einem mittleren Bereich liegen. Zudem zeigt sich, dass fünf 
Subskalen signifikant mit den Kompetenzen der Viertklässlerinnen und 
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Viertklässler korrelieren. Am größten ist dieser Zusammenhang für die 
Dimension, die angibt, ob es im sozialen Netzwerk Personen mit hohem 
kulturellen Kapital gibt. Kein signifikanter Zusammenhang besteht für die 
Dimension, die angibt, ob es im sozialen Netzwerk Personen mit Fähigkeiten 
im handwerklichen oder technischen Bereich gibt. 


Tabelle 3: Korrelationen zwischen den sechs Subskalen des Ressourcengenerators 
sowie deren Korrelationen mit den mathematischen und naturwissenschaftlichen 
Kompetenzen im Rahmen von TIMSS 2015 


Dimension 
1 2 3 4 5 6 


Dimension 1: Economic capital 


Dimension 2: Cultural capital 0.52 

Dimension 3: Connections 0.37 0.34 

Dimension 4: Advice 0.45 0.46 0.35 

Dimension 5: Everyday support 0.31 0.27 0.17 0.37 

Dimension 6: Manual or technical support 0.20 0.17 0.17 0.40 0.35 
Mathematics achievement 0.18 0.24 0.09 0.07 0.14 n.s. 
Science achievement 0.19 0.26 0.11 0.09 0.16 n.s. 


All correlations are statistically significant (p < .05). 


Quelle: Stubbe & Lorenz, 2017 


Schließlich zeigt Tabelle 4 die Ergebnisse der durchgeführten Regressionsana- 
lysen zur Erklärung der mathematischen und naturwissenschaftlichen Kom- 
petenzen durch die sechs Dimensionen des Ressourcengenerators (Modelle 
1 und 3) sowie durch dieses Konstrukt und weitere Indikatoren des sozialen 
Status (Modelle 2 und 4). 

Wie sich bereits bei den Korrelationsanalysen angedeutet hat, weist die 
zweite Dimension (kulturelles Kapital) den engsten Zusammenhang mit den 
erreichten Kompetenzen auf. Aber auch die Dimensionen 5 (Unterstützung 
im Alltag) und 1 (ökonomisches Kapital) zeigen einen signifikanten positi- 
ven Zusammenhang mit den abhängigen Variablen. Hingegen lässt sich kein 
signifikanter Effekt der Dimension 3 (Beziehungen) und 6 (handwerkliche 
oder technische Unterstützung) feststellen. Abweichend von den Befunden 
der bivariaten Analysen weist die vierte Dimension (Ratschläge) in diesem 
multivariaten Modell einen negativen Zusammenhang mit den Kompeten- 
zen der Schülerinnen und Schüler auf. Unter Kontrolle der übrigen Facetten 
des sozialen Kapitals geht der Bedarf an Ratschlägen also mit geringeren 
schulischen Leistungen einher und wirkt möglicherweise kompensatorisch. 
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Tabelle 4: Regressionsanalysen zur Erklärung der mathematischen und 
naturwissenschaftlichen Kompetenzen bei TIMSS 2015 durch die sechs Dimensionen 
des Ressourcengenerators und weitere Indikatoren des sozialen Status 


Mathematics Science 
achievement achievement 
Model 1 Model 2 Model 3 Model 4 

Constant 473.6 486.2 467.8 483.6 
Ressource generator 

Dimension 1: Economic capital 17.8 ns. 15.9 n.s. 

Dimension 2: Cultural capital 52.7 19.7 59.0 21.9 

Dimension 3: Connections n.s. n.s. n.s. n.s. 

Dimension 4: Advice -19.4 - 13.0 -18.8 -11.4 

Dimension 5: Everyday support 29.4 13.4 37.7 19.5 

Dimension 6: Manual or technical support n.s. n.s. n.s. n.s. 
Parent’s highest educational degree! 

lower secondary degree -15.1 — 20.2 

university degree n.s. n.s. 
EGP class? 

service class 9.7 8.8 

working class n.s. n.s. 
Highest ISEI 0.4 0:5 
Poverty risk -17.2 -18.2 
Number of books at home? 

at most 10 books — 30.7 — 38.1 

more than 200 books 19.6 19.3 
R? 0.08 0.20 0.09 0.23 


All coefficients unstandardized and statistically significant (p < .01). 
1 reference group: no university degree but higher than lower secondary degree 
2 reference group: intermediate class 3 reference group: 11-200 books 


Quelle: Stubbe & Lorenz, 2017 


Auch in den Modellen, die Indikatoren für das ökonomische und kulturelle 
Kapital der Familien berücksichtigen, weisen drei der sechs Dimensionen des 
Ressourcengenerators signifikante Effekte auf. Somit bleibt festzuhalten, dass 
die adäquate Operationalisierung des sozialen Kapitals für die empirische 
Bildungsforschung einen Mehrwert darstellen kann. 


4. Wie lassen sich soziale Disparitäten erklären? 


So wie die Entwicklung von Instrumenten zur Messung von SES notwen- 
dige Bedingung für das Beschreiben von sozialen Disparitäten ist, setzt das 
Erklären von sozialen Disparitäten deren Beschreibung voraus. Zunächst 
muss das Vorhandensein von sozialen Disparitäten empirisch festgestellt 
und hinsichtlich Differenzen im Zeitverlauf oder kontextualer Merkmale in 
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verschiedenen Staaten, Regionen, Personengruppen etc. analysiert werden. 
Aus wissenschaftlicher Perspektive stellt sich im Anschluss daran konsequen- 
terweise die Frage nach den Ursachen dieser Disparitäten. 

Ausgehend von Boudon (1974) wird in der Bildungsforschung bei der 
Erklärung von sozialen Disparitäten üblicherweise zwischen primären und 
sekundären Herkunftseffekten unterschieden. Als primäre Herkunftseffekte 
werden demnach die direkten Effekte des SES auf die schulischen Kom- 
petenzen von Schülerinnen und Schülern bezeichnet. Im Gegensatz dazu 
wird unter sekundären Herkunftseffekten der Zusammenhang zwischen 
SES und Bildungsentscheidungen (unter Kontrolle der primären Herkunfts- 
effekte) verstanden. In Kapitel 4.1 werden mit der Home Literacy Environ- 
ment (HLE) und dem bezahlten Nachhilfeunterricht exemplarisch zwei 
Erklärungsansätze von primären Herkunftseffekten vorgestellt. Kapitel 4.2 
beleuchtet anschließend die Frage von Bildungsentscheidungen und damit 
die sekundären Herkunftseffekte im deutschen Bildungssystem. 


4.1. Primäre Herkunftseffekte: Home Literacy Environment und 
Nachhilfe 


Nach Bourdieu (1983) wird das (ökonomische, kulturelle und soziale) Kapi- 
tal, das in einer Familie vorhanden ist, unter anderem dazu genutzt, um den 
Bildungserfolg der Kinder - und damit deren zukünftige soziale Position - zu 
sichern. Kinder aus bildungsnahen Elternhäusern wachsen folglich in einem 
anregungsreicheren Umfeld auf, in dem beispielsweise gezielt Aktivitäten 
stattfinden, die das Lernen fördern (z.B. Vorlesen). Es liegt somit nahe, fami- 
liale Maßnahmen der häuslichen Sozialisation als Mediator zwischen SES und 
Bildungserfolg anzunehmen (Attig & Weinert, 2020). 

Die internationalen PIRLS-Datensätze bieten für entsprechende Analy- 
sen eine hervorragende Grundlage, da neben der Lesekompetenz der Schü- 
lerinnen und Schüler und dem SES der Familien über den Elternfragebogen 
auch Angaben zur häuslichen Lesesozialisation erhoben wurden. Die Lese- 
sozialisation im Elternhaus stellt einen Teilbereich der sogenannten Home 
Literacy Environment (HLE) dar, also dem Unterstützungsverhalten der 
Eltern in bildungsbezogenen häuslichen Aktivitäten. 

Entsprechend der theoretischen Struktur (McElvany, 2008) lassen sich 
bei PIRLS 2006 die Teilbereiche leseförderliche Aktivitäten vor der Grund- 
schulzeit, leseförderliche Aktivitäten während der Grundschulzeit, Vorbild- 
verhalten der Eltern und leseförderliche Ressourcen im Elternhaus unter- 
scheiden. Insgesamt stehen 25 Einzelitems zur Verfügung, die eine interne 
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Konsistenz von Cronbachs Alpha = .86 aufweisen. Stubbe, Buddeberg, et al. 
(2007) konstruieren aus diesen Items einen eindimensionalen Raschscore, 
der das Ausmaß der häuslichen Leseförderung quantifiziert. 

Es kann gezeigt werden, dass sowohl zwischen SES und HLE als auch 
zwischen HLE und Lesekompetenz ein Zusammenhang besteht (Buddeberg 
et al., 2008; Stubbe & Buddeberg, 2008; Stubbe, Buddeberg, et al. 2007). 

Daran anknüpfend formulieren Tarelli und Stubbe (2010) ein Pfadmodell 
und schätzen dessen Parameter getrennt für die 29 PIRLS-Staaten, die der 
EU beziehungsweise der OECD angehören. Zwar zeigt sich theoriekonform 
in allen Staaten ein indirekter Zusammenhang zwischen SES und Lesekom- 
petenz über HLE; der direkte Pfad von SES zur Lesekompetenz bliebt aller- 
dings dominant (Tarelli & Stubbe, 2010, Table 2). HLE erklärt also einen 
gewissen Anteil der sozialen Disparitäten, ein substanzieller Anteil bleibt 
jedoch unerklärt. 

Für die dargestellte Form der häuslichen Unterstützung wird vor allem 
kulturelles Kapital benötigt. Eine Möglichkeit, ökonomisches Kapital zur 
Steigerung des Bildungserfolges der eigenen Kinder zu nutzen, besteht in 
bezahlter Nachhilfe. Die empirischen Befunde zum Zusammenhang mit 
dem sozialen Status sind allerdings uneinheitlich. Während unter anderem 
Schneider (2005) sowie Hille et al. (2016) auf Basis von Daten des Sozio- 
oekonomischen Panels (SOEP) herausstellen, dass die Inanspruchnahme 
von Nachhilfeunterricht mit dem Einkommen der Eltern assoziiert ist, zei- 
gen Lorenz und Stubbe (2020) anhand von NEPS-Daten, dass unter Kont- 
rolle des häuslichen Unterstützungsverhaltens der Eltern kein signifikanter 
Zusammenhang zwischen dem sozialen Status und der Entscheidung für 
bezahlte Nachhilfe besteht. 


4.2. Sekundäre Herkunftseffekte: Bildungsentscheidungen 


Die Analyse von sekundären Herkunftseffekten ist ganz besonders für geglie- 
derte Schulsysteme von Bedeutung, da dort zu festgelegten Zeitpunkten Ent- 
scheidungen für bestimmte Bildungsgänge getroffen werden müssen (Skopek 
& Passaretta, 2021). Entsprechend existieren für die Bundesrepublik zahlrei- 
che Publikationen zu diesem Thema - insbesondere zum Übergang von der 
Grundschule auf eine weiterführende Schule (Ditton et al., 2017; Dumont et 
al., 2014; Esser & Seuring, 2020; Stubbe, Kasper, et al. 2020; Stubbe, Schaufel- 
berger, et al. 2023; Zunker & Neumann, 2020). 

In praktisch allen Studien zu diesem Thema zeigt sich, dass Schullauf- 
bahnentscheidungen auch unter Kontrolle der schulischen Kompetenzen 
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einen Zusammenhang mit dem sozialen Status von Schülerfamilien aufwei- 
sen. Das heißt, Schülerinnen und Schüler aus den unteren sozialen Lagen 
haben auch bei gleichen Testleistungen eine geringere Chance, ein Gymna- 
sium zu besuchen, als ihre Mitschülerinnen und Mitschüler aus den oberen 
sozialen Lagen (Stubbe, 2009b). 

Unter Berücksichtigung von Beckers (2000) Forderung, den Einfluss 
von Lehrkräfteempfehlungen auf elterliche Entscheidungen angemessen zu 
berücksichtigen, analysieren Pietsch und Stubbe (2007) die Daten zu den 
Schullaufbahnentscheidungen aus IGLU 2001 unter besonderer Berücksich- 
tigung der Schullaufbahnempfehlungen der Grundschulen und betonen die 
dreifache soziale Benachteiligung im deutschen Bildungssystem: Kinder aus 
sozial benachteiligten Familien (1) verfügen über geringere schulische Kom- 
petenzen; (2) haben - im Vergleich zu Mitschülerinnen und Mitschülern 
mit ähnlichen Leistungen - geringere Chancen von ihrer Grundschule eine 
Gymnasialempfehlung zu erhalten und (3) haben selbst mit einer Gymnasi- 
alempfehlung eine geringere Chance von ihren Eltern tatsächlich auf einem 
Gymnasium angemeldet zu werden. 

Stubbe und Bos (2008) veranschaulichen - ebenfalls mit den Daten aus 
IGLU 2001 - den Zusammenhang unterschiedlicher Hintergrundvariablen 
mit der elterlichen Schullaufbahnentscheidung mit Hilfe von Pfadmodel- 
len. Dabei werden neben der Schullaufbahnempfehlung der Lehrkräfte auch 
die Schulnoten als Mediatoren zwischen den Hintergrundvariablen und der 
Entscheidung berücksichtigt. Das finale Modell, das von Arnold etal. (2007) 
für IGLU 2006 und von Stubbe et al. (2012) für IGLU 2011 reproduziert 
wurde, zeigt, dass auch unter Berücksichtigung weiterer leistungsrelevanter 
Merkmale (z.B. Anstrengungsbereitschaft) sowohl ein direkter als auch ein 
indirekter Pfad vom SES zur Schullaufbahnentscheidung beobachtet werden 
kann. 

Stubbe (2009a, 2009b) überträgt die für den Grundschulübergang be- 
währten Modelle auf Schulformwechselentscheidungen in den ersten Jah- 
ren der Sekundarstufe I und stellt auch dort unter Kontrolle der schulischen 
Leistungen eine Koppelung zwischen SES und Bildungsentscheidungen fest. 
Daran anknüpfend untersucht Lorenz (2017) den Übergang am Ende der 
Sekundarstufe I (Entscheidung für oder gegen den Besuch der gymnasialen 
Oberstufe) und stellt insgesamt ebenfalls ausgeprägte sekundäre Herkunfts- 
effekte fest. Unter Kontrolle der Schulform zeigt sich allerdings, dass dieser 
Effekt an integrierten Gesamtschulen nicht feststellbar ist, woraus die Auto- 
rin ableitet, dass ein eingliedriges Schulsystem einen Beitrag zur Verringe- 
rung der sozialen Disparitäten im deutschen Bildungssystem leisten kann. 
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5. Zusammenfassung und Ausblick 


In diesem Beitrag wurde deutlich, dass die Analyse sozialer Disparitäten im 
Bildungswesen nach wie vor ein hochrelevantes Thema der empirischen Bil- 
dungsforschung ist. Aktuelle Herausforderungen, wie die coronabedingten 
Schulschließungen, aber auch Schulentwicklungsprozesse, wie die Implemen- 
tation von Profilklassen, können bereits bestehende Mechanismen sozialer 
Bildungsbenachteiligung weiter verstärken (Engzell et al., 2021; Weber et al., 
2022b; Zunker & Neumann, 2020). 

Ein besonderer Fokus dieses Beitrags liegt auf der Frage nach einer ange- 
messenen Operationalisierung des sozialen Status. Demnach sollte bei der 
Gestaltung von Fragebögen in der empirischen Bildungsforschung bezüg- 
lich der Auswahl von Variablen zur Erfassung des SES berücksichtigt wer- 
den, wer befragt wird und wie viel Bearbeitungszeit für diese Merkmale zur 
Verfügung steht. Dabei muss aber auch bedacht werden, welche Analysen 
mit den erhobenen Daten durchgeführt werden sollen. Werden nur Kinder 
befragt und genügt ein grober Indikator, ist die Frage nach der Anzahl der 
Bücher im Haushalt weiterhin die erste Wahl. Werden Eltern befragt, wobei 
der Fragebogen sehr kurz sein soll, bietet es sich an, nach Bildungsabschlüs- 
sen und gegebenenfalls nach Berufsabschlüssen zu fragen. Die Ausführun- 
gen in diesem Beitrag haben aber auch deutlich gemacht, dass es für diffe- 
renzierte Analysen der sozialen Disparitäten im Bildungssystem notwendig 
ist, verschiedene Facetten dieses komplexen theoretischen Konstrukts zu 
erfassen: Bei der Operationalisierung des ökonomischen Kapitals sollte also 
explizit die Armutsgefährdung von Haushalten berücksichtigt werden. Bei 
der Operationalisierung des sozialen Kapitals ist darauf zu achten, nicht nur 
die Beziehungen innerhalb der Familien zu erfassen (bspw. mit Hilfe des 
Ressourcengenerators). Und wenn der Vergleich der unterschiedlichen Kapi- 
talarten vorgesehen ist, muss bedacht werden, dass sich kulturelles und öko- 
nomisches Kapital unterscheiden lassen, da viele Indikatoren (beispielsweise 
Bildungs- und Berufsabschlüsse) beides erfassen. 

Neben deskriptiven Befunden zum Ausmaß der sozialen Disparitäten 
wurden in diesem Beitrag auch verschiedene Ansätze zur Erklärung die- 
ser Bildungsungleichheiten diskutiert. Erst durch die Identifizierung der 
Mechanismen, die für ungleiche Bildungschancen sorgen, lassen sich bil- 
dungspolitische und schulpraktische Handlungsoptionen für mehr Chan- 
cengleichheit ableiten. 
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Differenzielle Überzeugungen von 
angehenden Lehrkräften und deren 
Bedeutung für eine diversitätssensible 
Unterrichtsgestaltung 


Miriam M. Gebauer & Ricarda K. Rübben 


Zusammenfassung 


Angesichts sozialer Wandlungsprozesse und stetig steigender Zahlen von 
Schülerinnen und Schülern mit Migrationshintergrund im deutschen 
Schulsystem sind Lehrkräfte - zunehmend stärker - dazu angehalten, 
ihren Unterricht diversitätssensibel zu gestalten. Der Beitrag widmet sich 
deshalb der Frage, ob und inwiefern Überzeugungen von Lehramtsstudie- 
renden zu kulturell-ethnischer Vielfalt im Besonderen und zu Lehr-und 
Lerntheorien im Allgemeinen in einem Zusammenhang mit der Intention 
stehen, prospektiv einen Unterricht zu planen, der kulturell-ethnische 
Diversität (nicht) berücksichtigt. Datengrundlage bildet eine Frageboge- 
nerhebung mit N = 345 Lehramtsstudierenden. Die Analysen zeigen sta- 
tistisch signifikante Zusammenhänge zwischen den Überzeugungen zu 
kulturell-ethnischer Vielfalt und der Intention einer diversitätssensiblen 
Unterrichtsgestaltung, nicht aber zwischen den lehr- und lerntheoreti- 
schen Überzeugungen und dieser Intention. Die Ergebnisse werden vor 
dem Hintergrund ihrer Bedeutung und Implikationen für die universitäre 
Lehrerbildung und Professionsforschung abschließend diskutiert. 


Schlagworte: Diversitätssensibler Unterricht; Lehr-lerntheoretische Über- 
zeugungen von angehenden Lehrkräften; Selbstwirksamkeitsüberzeugung; 
Vorstellungen in Bezug auf Akkulturationsprozesse 


Abstract 


In view ofsocial change processes and steadily increasing numbers of stu- 
dents with a migration background in the German school system, teachers 
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are - increasingly - required to design their lessons in a diversity-sensitive 
way. This article therefore addresses the question of whether and to what 
extent student teachers’ beliefs about cultural-ethnic diversity in particular 
and about teaching and learning theories in general are related to their 
intention to prospectively plan lessons that (do not) take cultural-eth- 
nic diversity into account. Data are based on a questionnaire survey with 
N = 345 student teachers. The analyses show statistically significant cor- 
relations between beliefs about cultural-ethnic diversity and the intention 
of diversity-sensitive instructional design, but not between teaching and 
learning theory beliefs and this intention. Finally, the results are discussed 
in light of their significance and implications for university-based teacher 
education and professional research. 


Keywords: diversity-sensitive teaching; beliefs towards acculturation; epis- 
temological beliefs of future teachers; self-efficacy beliefs 


1. Einleitung 


Der adäquate Umgang mit der Diversität der Schülerinnen und Schüler mar- 
kiert eine konstitutive Herausforderung für die Schul- und Unterrichtspra- 
xis sowie die Lehrerbildung (Dumont 2019; Trautmann & Wischer, 2011): 
Es besteht der normative Anspruch, allen Schülerinnen und Schülern, die 
sich hinsichtlich verschiedener lern- und leistungsrelevanter Merkmale (z.B. 
Geschlechts-, Kultur- und Religionszugehörigkeit, Motivation, kognitive 
Fähigkeiten) sowie Bedürfnisse (Emmerich & Moser, 2020) unterscheiden, 
in ihrer Vielfalt individuell gerecht zu werden (Prengel, 2007). Im Fokus 
der Diskussion steht immer wieder Migration respektive kulturell-ethni- 
sche Zugehörigkeit als ein Merkmal, das in Besonderem mit schulischen 
Marginalisierungs- und Exklusionsmechanismen verbunden ist und Bil- 
dungsbenachteiligung begünstigen kann (Emmerich & Moser, 2020; Stanat 
& Edele, 2011). Besondere Relevanz erfährt dieses Diversitätsmerkmal vor dem 
Hintergrund sozialer Wandlungsprozesse und weltweiter Migrations- und 
Fluchtbewegungen und damit verbunden einem kontinuierlichen Anstieg des 
Anteils von Schülerinnen und Schülern mit Migrationshintergrund respektive 
kulturell-ethnischer Diversität in Schulen (Bundesamt für Migration und 
Flüchtlinge, 2019; Dumont, 2019; Hachfeld & Syring, 2020). Aktuelle Befunde 
zeigen, dass inzwischen 35,8% der Schülerinnen und Schüler an allgemein- 
und berufsbildenden Schulen in Deutschland einen Migrationshintergrund 
aufweisen (Statistisches Bundesamt, 2021). 
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Der Anspruch eines diversitätssensiblen Unterrichts ist deshalb neben 
der Berücksichtigung der oben aufgeführten individuellen lern-und leis- 
tungsrelevanten Merkmale der Schülerinnen und Schüler insbesondere 
auch mit einer Berücksichtigung ihres kulturell-ethnischen Hintergrunds 
verbunden. Ausgehend vom kompetenztheoretischen Ansatz der Lehrerpro- 
fessionalität sind für eine qualitätsvolle Unterrichtsgestaltung neben dem 
Professionswissen selbstregulative Fähigkeiten und motivationale Orien- 
tierungen sowie Einstellungen und Überzeugungen relevant (Baumert & 
Kunter, 2006; Blömeke, Gustafsson & Shavelson 2015). Einstellungen und 
Überzeugungen können dabei in Bezug auf das Selbst, das Unterrichten, 
schulische Lehr- und Lernprozess sowie gesellschaftliche Prozesse heraus- 
gebildet werden (Fischer & Ehmke, 2019; Fives & Buehl, 2016). Für eine 
diversitätssensible Unterrichtsgestaltung wird dabei theoretisch angenom- 
men, dass spezifische Überzeugungen zu kulturell-ethnischer Diversität der 
Schülerinnen und Schüler von Relevanz sind (Tichnor-Wagner et al., 2019). 
Rezente Forschungsarbeiten weisen darauf hin, dass bereits angehende 
Lehrkräfte differenzielle Einstellungen und Überzeugungen haben und 
eine darauf bezogene positive oder ablehnende Haltung bedeutsam für die 
Unterrichtsgestaltung zu sein scheint (Gebauer & McElvany, 2017; Bello et 
al., 2017; Fischer & Ehmke, 2019). 

Der vorliegende Beitrag knüpft an bestehende Forschungsergebnisse 
zu Überzeugungen an und beschäftigt sich mit der Bedeutung von ver- 
schiedenen - spezifisch kulturell-ethnischen und allgemeinen lehr-lern- 
theoretischen - Überzeugungen für eine zukünftige diversitätssensible 
Unterrichtsgestaltung. Dabei sollen folgende Überzeugungen in Bezug auf 
kulturell-ethnische Diversitat in den Fokus gerückt werden: die Intensität der 
Konsequenzen für die Unterrichtsgestaltung, Akkulturationsprozesse sowie 
selbstbezogene Kompetenzwahrnehmungen. Zusätzlich sollen lehr-lern- 
theoretische Überzeugungen ohne einen kulturell-ethnischen Objektbezug 
sowie die Selbsteinschätzung des im Studiums erworbenen Sachwissens, 
der eigenen Handlungskompetenz und der Erfahrungen zum Umgang mit 
kulturell-ethnischer Diversität im Unterricht berücksichtigt werden. Die 
Betrachtung mehrerer bedeutsamer Überzeugungen stellt damit ein Novum 
im Bereich der Überzeugungsforschung im Kontext des diversitätssensiblen 
Unterrichts dar. 
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2. Forschungsgegenstand und Forschungsdesiderat 
2.1. Umgang mit kulturell-ethnischer Diversität im Unterricht 


Der Grund für die Auseinandersetzung mit quantifizierten Merkmalsunter- 
schieden zwischen Schülerinnen und Schülern liegt nicht darin, auf Gegen- 
sätze oder Verschiedenartigkeit hinzuweisen (Fylkesnes, 2018), sondern die 
Notwendigkeit adäquater Unterrichtsstrategien zu unterstreichen, um die 
kulturell-ethnische Vielfalt von Schülerinnen und Schüler wertschätzend zu 
integrieren (Au, 2009; Darling-Hammond, 2010). In einem diversitätssensib- 
len Unterricht sollen individuelle Entwicklungsverläufe und Lernprozesse der 
Schülerinnen und Schüler durch partizipative und kooperative Lernformate 
angeleitet und gleichzeitig der interkulturelle Austausch gefördert werden, 
indem die kulturell-ethnische Vielfalt in Unterrichtsinhalte eingebunden 
wird (Banks, 2016). Dabei werden in der Literatur unterschiedliche Ansätze 
beschrieben, die hinsichtlich differenzieller Strategien oder Perspektiven kon- 
trastiert werden können: 


e Die multikulturellen (für weitere Unterscheidungen multikultu- 
reller Ansätze siehe z.B. Steinberg & Kincheloe 2001) oder poly- 
kulturellen Ansätze beschreiben, wie kulturell-ethnische Diffe- 
renzen wertschätzend gewürdigt werden können, interkultureller 
Austausch curricular verankert und kulturell-ethnische Wert- 
orientierungen und Traditionen bewahrt werden sollen, wobei 
in polykulturellen Ansätzen die wechselwirkende Einflussnahme 
zwischen Kulturen über die Zeit Berücksichtigung finden (Kelley, 
1999; Parekh, 1999). 

e Demgegenüber steht der color-blindness Ansatz mit der Vorstel- 
lung, dass kulturell-ethnische Diversität keine Bedeutung für 
interindividuelle Interaktionen und Kommunikation hat und in 
Bildungs- oder Arbeitskontexten unberiicksichtigt bleiben kann, 
da der Fokus auf Ubereinstimmungen und Gleichheit zwischen 
den Gruppen und nicht den Differenzen liegt (Markus et al., 2000; 
Rosenthal & Levy, 2010). Dabei steht dieser Ansatz in der Kritik, 
Diskriminierung und Machtstrukturen unberticksichtigt zu las- 
sen und somit Benachteiligung zu fordern (Apfelbaum et al., 2012; 
Gillborn 2019). 

e Integrierende theoretische Postulate hingegen sehen mögliche 
Vorteile in einer Kombination dieser programmatischen Ansätze 
für Bildungskontexte, in denen der Aspekt der Gleichheit nicht im 
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Sinne einer Assimilationserwartung interpretiert wird (Rosenthal 
& Levy, 2010). 


Es gibt zudem Untersuchungen zu den verschiedenen Ansätzen, auf die an 
dieser Stelle lediglich verwiesen werden kann (color-blindness Ansatz z. B.: 
Gaertner & Dovidio, 2000; Gaertner et al., 1993; Hachfeld et al., 2015; Schütze 
& Törngren, 2022; multikultureller Ansatz z. B.: Berry & Kalin, 1995; Ryan et 
al., 2010; Stephan & Stephan, 2001; vergleichende Untersuchungen z.B. Plaut, 
Thomas & Goren, 2009; Richeson & Nussbaum, 2004; Wolsko et al., 2000). 


2.2. (Diversitätssensible) Überzeugungen als Teil professioneller 
Handlungskompetenz 


Einstellungen und Überzeugungen als Teil der professionellen Handlungs- 
kompetenz von Lehramtsstudierenden und Lehrkräften spielen für eine diver- 
sitätssensible Unterrichtsgestaltung eine bedeutsame Rolle (Tichnor-Wagner 
et al., 2019). Dabei gelten sowohl implizite als auch explizite Einstellungen 
und Überzeugungen von (angehenden) Lehrkräften als zentrale Bedingungen 
für eine erfolgreiche Unterrichtsgestaltung und die Steuerung von Wissens- 
erwerbsprozessen. Die Begriffe Einstellungen und Überzeugungen werden 
dabei nicht trennscharf verwendet (z.B. Döhrmann et al., 2014; Buchholzer 
& Pelgrim, 2013): Einstellungen werden typischerweise als kognitive, affektive 
und behaviorale Gesamtbewertungen der Inhalte definiert (Eagly & Chaiken, 
1993; Maio & Haddock, 2009). Einige theoretische Ausführungen gehen davon 
aus, dass Überzeugungen als kognitive Teilkomponente von Einstellungen 
verstanden werden können (Baumert & Kunter, 2006; Eagly & Chaiken, 1993). 
Gleichwohl besteht weitgehend Konsens dahingehend, dass Überzeugungen 
als selbst-normative (Oser & Blömeke, 2012) konzeptionelle Repräsentationen 
in Bezug auf ein Objekt beschrieben werden können, die basierend auf Wis- 
sen und Erfahrungen neue Erlebnisse filtern, einordnen und infolgedessen 
handlungsleitend sind (Fives & Buehl, 2012; Hermans et al., 2008; Reusser et 
al., 2011). Uberzeugungen von Lehrkraften kénnen dariiber hinaus in Bezug 
auf das Selbst, das Unterrichten und die Unterrichtsplanung, schulische Lehr- 
und Lernprozesse (Fives & Buehl, 2012; Pajares, 1992) sowie hinsichtlich 
interkultureller Prozesse herausgebildet werden (Fischer & Ehmke, 2019) und 
angehende Lehrkrafte haben bereits wahrend ihres Studiums differenzielle 
Überzeugungen in Bezug auf den Umgang mit Diversität (z. B. Bello et al., 
2017). 
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Überzeugungen, die bedeutsam für einen diversitätssensiblen Unter- 
richt sein können, sind solche, die auf 1) unterrichtsbezogene Konsequenzen 
von kulturell-ethnischer Diversität, 2) auf Akkulturation, 3) auf Lehr- und 
Lerntheorien und 4) berufsbezogene Selbstwirksamkeitsüberzeugung Bezug 
nehmen (z.B. Fischer & Ehmke, 2019): 
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zu 1) Einschätzungen von unterrichtsbezogenen Konsequenzen 
von Diversität sind die Überzeugungen von angehenden Lehrkräf- 
ten, dass die kulturell-ethnische Vielfalt von Schülerinnen und 
Schülern Aspekte der Unterrichtsplanung beeinflusst (Decristan 
et al. 2017). Vorausgesetzt wird eine Wechselwirkung zwischen 
den Merkmalen von Schülerinnen und Schülern und der Unter- 
richtsgestaltung (Cronbach & Snow, 1977; Snow, 1989). Gleichzei- 
tig wird die Diversität von Schülerinnen und Schülern als relevan- 
ter Faktor für die Unterrichtsvorbereitung, -durchführung und 
-reflexion beschrieben (Hurtado, 1996). Neue Untersuchungen 
fanden heraus, dass die Wahrnehmung von Diversität bedeutsam 
für die Einschätzung von zusätzlichem Aufwand für eine diversi- 
tätssensible Unterrichtsgestaltung bei angehenden Lehrkräften zu 
sein scheint (Glock et al., 2019). Hingegen sind negativ bewertete 
Einschätzungen der Kosten im Sinne eines belastenden zusätzli- 
chen Arbeitsaufwandes nicht von Relevanz für die Unterrichts- 
vorbereitung, -durchführung und -reflexion (Gebauer & McEI- 
vany, 2020). 

zu 2) Akkulturationsüberzeugungen sind Vorstellungen, die ange- 
hende Lehrkräfte in Bezug auf den Prozess der Akkulturation im 
schulischen Kontext haben und darüber, inwieweit Veränderun- 
gen von beispielsweise Verhaltensweisen durch die Übernahme 
von anderen kulturell-ethnischen Werten oder Sichtweisen durch 
interkulturelles Lernen verstärkt oder vermieden werden sollten 
und gleichzeitig die Herkunftskultur bewahrt werden kann (vgl. 
Göbel & Buchwald, 2017; Wagner et al., 2001; Weidemann, 2007). 
In der Akkulturationsforschung werden vier Akkulturationsstra- 
tegien beschrieben, die in Integration, Assimilation, Separation 
und Marginalisierung differenziert werden (Berry, 2005; Wei- 
demann, 2007). Mit Integration und Assimilation sowie Separa- 
tion und Marginalisierung werden zwei gegenüberstehende Pole 
beschrieben, die die Bewahrung beziehungsweise das Ablegen 
der Herkunftskultur und die Anpassung an die Aufnahmekul- 
tur beschreiben. Zugleich werden mit der Gegenüberstellung von 


Integration und Separation sowie von Assimilation und Margi- 
nalisierung zwei gegenüberstehende Punkte definiert, die die 
Absicht und im anderen Fall die Ablehnung eines interkulturel- 
len Gruppenaustausches beschreiben (Berry, 2005; Sam & Berry, 
2006). Wagner et al. (2001) konnten Zusammenhänge zwischen 
Autoritätshaltung und Akkulturationsüberzeugungen von Lehr- 
kräften sowie zu subgruppenspezifischen Herkunftsmerkmalen 
von Schülerinnen und Schülern herstellen, untersuchten aber 
keine Zusammenhänge zu Unterrichtsmerkmalen. Hachfeld et al. 
(2011) fanden positive Zusammenhänge zwischen Akkulturati- 
onsüberzeugungen von Studierenden und multikulturellen Über- 
zeugungen, wobei in dieser Studie die Akkulturationsüberzeu- 
gungen Integration und Assimilation nicht als Subskalen, sondern 
kombiniert in den Analysen berücksichtigt wurden und die mul- 
tikulturellen Überzeugungen keinen expliziten Bezug auf Vorge- 
hensweisen zur Berücksichtigung von kulturell-ethnischer Diver- 
sität im Unterricht nehmen. Darüber hinaus liegen Evidenzen 
darüber vor, wie Akkulturationsprozesse im Rahmen des Unter- 
richts unterstützt werden können; inwieweit Überzeugungen von 
Lehrkräften in Bezug auf schülerseitige Akkulturationsprozesse 
eine diversitätssensible Unterrichtsgestaltung begünstigen, wird 
in dieser Untersuchung jedoch nicht betrachtet (Tomcho & Foels, 
2002). Hinweise dafür, dass positive Überzeugungen in Bezug 
auf kulturell-ethnische Vielfalt bedeutsam für diversitätssen- 
sible Unterrichtsgestaltung ist, berichten Agostinetto und Bugno 
(2020). Dabei fanden sie Befunde dafür, dass Lehrkräfte zwar 
positive multikulturelle Überzeugungen berichten, den effektiven 
interkulturellen Austausch zwischen Schülerinnen und Schülern 
jedoch nur in geringem Maße unterstützen. 

zu 3) Unterrichtsbezogene Überzeugungen, die keinen Objektbe- 
zug zum Umgang mit kulturell-ethnischer Diversität herstellen, 
aber von Relevanz für einen qualitätsvollen Unterricht sind, sind 
lehr-lerntheoretische Vorstellungen, die Repräsentationen über 
Wissensvermittlungs- und Wissensaneignungsprozesse umfassen 
(Hofer, 2002; Voss et al., 2013). Diese Überzeugungen werden in 
theoretischen Konzeptionen in transmissive und konstruktivisti- 
sche Vorstellungen unterschieden, wobei transmissive Vorstellun- 
gen als lehrerzentriert beschrieben werden und von einer direk- 
ten Wissensübertragung von der Lehrkraft auf die Schülerinnen 
und Schüler ausgehen (Chan & Elliott, 2004). Konstruktivistische 
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Annahmen hingegen sehen Lernprozesse als individuelle schü- 
lerzentrierte Erkenntnisprozesse, in denen eigenständiges Lernen 
durch die Lehrenden angeleitet wird (Hofer, 2002). Aktuelle For- 
schungen weisen auf die Bedeutung von lehr-lerntheoretischen 
Überzeugungen für Einstellungen in Bezug auf inklusiven Unter- 
richt hin, wobei Zusammenhänge zwischen konstruktivistischen 
Überzeugungen und positiven Einstellungen in Bezug auf einen 
inklusiven Unterricht festgestellt wurden (Sheehy et al., 2019; 
Silverman, 2007). Empirische Evidenzen zum Zusammenhang 
zwischen lehr-lerntheoretischen Überzeugungen und der Unter- 
richtsgestaltung zeigen eine variierende Befundlage und dass 
lehr-lerntheoretische Überzeugungen nicht in jedem Fall zu einer 
den Überzeugungen entsprechenden Unterrichtsgestaltung füh- 
ren (Olafson & Schraw, 2006). Inwieweit das auch für diversitäts- 
sensiblen Unterricht mit Bezug auf eine kulturell-ethnische Diver- 
sität der Schülerinnen und Schüler gilt, ist weitgehend ungeklärt. 

zu 4) Die berufsbezogene Selbstwirksamkeitsüberzeugung be- 
schreibt die wahrgenommene Überzeugung in die eigenen Fähig- 
keiten, in zukünftigen Situationen herausfordernde Aufgaben 
erfolgreich zu bewältigen (Bandura, 1997; Henson, 2002). Infol- 
gedessen ist die berufsbezogene Selbstwirksamkeitsüberzeugung 
von Relevanz für die Auswahl von Handlungsstrategien und somit 
verantwortlich für eine erfolgreiche Aufgabenbewältigung, die für 
eine qualitätsvolle Unterrichtsgestaltung bedeutsam ist (Klassen 
& Tze, 2014). Lehrkräfte mit hoch ausgeprägter Selbstwirksam- 
keitsüberzeugung zeigen mehr Ausdauer in der Unterrichtsvorbe- 
reitung, setzen vielfältige und häufiger neue Unterrichtsmethoden 
ein und bringen mehr Zeit für Interaktionen mit Schülerinnen 
und Schülern auf (Tschannen-Moran & Woolfolk-Hoy, 2001). Die- 
ses Vertrauen in die eigenen Fähigkeiten kann um den Bezug zum 
kompetenten Umgang mit kulturell-ethnisch diversen Schüler- 
gruppen erweitert werden (Siwatu, 201la) und Evidenzen weisen 
auf positive Zusammenhänge mit multikulturellen Überzeugun- 
gen hin (Hachfeld et al., 2015; Siwatu, 2011a). Gleichzeitig fanden 
vorherige Untersuchungen Zusammenhänge zwischen hoher 
beruflicher Selbstwirksamkeitsüberzeugung und schülerzentrier- 
ter Unterrichtsgestaltung (Guo et al., 2010). Inwieweit eine berufs- 
bezogene Selbstwirksamkeitsüberzeugung zur Berücksichtigung 
kulturell-ethnischer Diversität bedeutsam für eine diversitäts- 
sensible Unterrichtsgestaltung ist, ist bisher allerdings ungeklärt. 


Forschungsbefunde im Kontext sprachlich-kultureller Heteroge- 
nität haben gezeigt, dass für angehende Lehrkräfte Praxiserfah- 
rungen und im Studium erworbenes Wissen bedeutsam für eine 
positive oder ablehnende Überzeugung sind (Hammer et al., 2016; 
Fischer et al., 2018). Darüber hinaus scheinen neben praktischer 
Unterrichtserfahrung insbesondere Erfahrung mit diversen Schü- 
lergruppen relevant für die Überzeugungen zu sein (Alisaari et 
al., 2019; Sharma et al., 2008). Dabei berichten Lehrkräfte jedoch, 
wenig bis keine Erfahrung im Unterrichten von kulturell-ethnisch 
diversen Klassen zu haben (Siwatu, 2011b) und haben eher nega- 
tive Stereotype über Schülerinnen und Schüler (Gao & Mager, 
2011; Glock, 2016), die sie mitunter als „anders“ im Vergleich zu 
sich selbst betrachten (Hogg, 2005). Insbesondere das während 
der Lehrerausbildung erworbene Wissen und die praktischen 
Erfahrungen tragen dazu bei, dass Lehrkräfte ihre Einstellungen 
in Bezug auf die Vielfalt der Lernenden und Diversität im Klassen- 
zimmer positiv verändern (Bayraktar, 2011; Mellom et al., 2018). 


3. Forschungsfragen 


Vor dem Hintergrund der Explikation des Forschungsgegenstandes, des For- 
schungsstandes und der Forschungsdesiderate, ergeben sich folgende For- 
schungsfragen: 


1) Sind Einstellungen bezogen auf Intensität der Auswirkung von Diversität 
für die Unterrichtsgestaltung bedeutsam für eine intendierte diversitätssen- 
sible Unterrichtsgestaltung oder für die Intention, Diversität nicht zu berück- 
sichtigen? 


2) Sind Einstellungen bezogen auf Akkulturationsprozesse von Bedeutung 
für eine intendierte diversitätssensible Unterrichtsgestaltung oder für eine 
Intention, Diversität im Unterricht unberücksichtigt zu lassen? 

Es wird angenommen, dass eine integrative Akkulturationsüberzeugung, 
nach der die Herkunftskultur neben der Aufnahmekultur bewahrt und 
wertgeschätzt wird, mit der Intention, einen diversitätssensiblen Unterricht, 
gestalten zu wollen, positiv zusammenhängt (Göbel & Buchwald, 2017; Wei- 
demann, 2007). Vice versa wird ein negativer Zusammenhang mit der Inten- 
tion zu einem Diversität nicht berücksichtigenden Unterricht angenommen. 
Bei assimilierenden Akkulturationsüberzeugungen seitens der angehenden 
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Lehrkräfte, die die Aufgabe der Herkunftskultur und Anpassung an die 
Aufnahmekultur präferieren (Göbel & Buchwald, 2017; Weidemann, 2007) 
wird erwartet, dass diese mit der Intention, Diversität im Unterricht nicht 
berücksichtigen zu wollen, korreliert. Vice versa wird angenommen, dass 
sie negativ mit der Intention einer diversitätssensiblen Unterrichtsgestaltung 
zusammenhängen. 


3) Sind lehr-lerntheoretische Überzeugungen bedeutsam für eine intendierte 
diversitätssensible Unterrichtsgestaltung oder für die Intention, Diversität 
unberücksichtigt zu lassen? 

Es wird davon ausgegangen, dass Überzeugungen, die einen schülerzen- 
trierten Unterricht favorisieren und Lernen als subjektiven Konstruktions- 
prozess verstehen (Voss et al., 2013), mit der Absicht einer diversitätssen- 
siblen Unterrichtsgestaltung positiv zusammenhängen und negativ mit der 
einer Diversität nicht berücksichtigenden. Bei transmissiven Vorstellungen 
wird erwartet, dass diese positiv mit einer Unterrichtsgestaltung zusam- 
menhängen, die die kulturell-ethnische Diversität unberücksichtigt lässt 
und negativ mit einer diversitätssensiblen Unterrichtsgestaltung. 


4) Sind berufsbezogene Selbstwirksamkeitsüberzeugungen bezugnehmend auf 
den Umgang mit kulturell-ethnischer Vielfalt bedeutsam für eine intendierte 
diversitätssensible Unterrichtsgestaltung oder für eine Intention, Vielfalt 
unberücksichtigt zu lassen? 

Es wird erwartet, dass eine hoch ausgeprägte selbstbezogene Kompeten- 
züberzeugung in Bezug auf den Umgang mit kulturell-ethnisch diversen 
Schülergruppen positiv mit einer diversitätssensiblen Unterrichtsgestaltung 
zusammenhängt, da sie zur adäquaten Auswahl von Handlungsstrategien 
und erfolgreichen Handlungsbewältigung führt (Bandura, 1997; Tschan- 
nen-Moran & Woolfolk-Hoy, 2001). Für Zusammenhänge mit einem Unter- 
richt, in dem kulturell-ethnische Diversität unberücksichtigt bleibt, wird ein 
diametrales Ergebnis angenommen. 
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5) Sind Wissen, praktische Erfahrungen und Erfahrungen mit kulturell-eth- 
nischer Diversität bedeutsam für eine intendierte diversitätssensible Unter- 
richtsgestaltung oder für eine Intention, die kulturelle-ethnische Diversität 
nicht zu berücksichtigen? 

Es wird erwartet, dass Wissen und Handlungserfahrungen die Inten- 
tion, einen diversitätssensiblen Unterricht zu gestalten, begünstigen, da 
neben Überzeugungen (dispositions), Wissen (knowledge) und Fähigkeiten 
(skills) als Voraussetzung für eine diversitätssensible Unterrichtsgestaltung 
beschrieben werden (Tichnor-Wagner et al., 2019). 


4. Methodische Vorgehensweise 
4.1. Stichprobe 


Die Stichprobe umfasst N = 345 Studierende (davon 72,2% weiblich) mit 
einem Altersdurchschnitt von M = 24,51 Jahren (SD = 2,92). Die querschnitt- 
liche Fragebogenerhebung (Haupterhebung: Sommersemester 2011; Winterse- 
mester 2011/2012 und Nacherhebung: Wintersemester 2013/2014!) wurde von 
geschulten Testleiterinnen und Testleitern an einer nordrhein-westfälischen 
Universität durchgeführt, deren Teilnahme freiwillig war. Zum Zeitpunkt 
der Datenerfassung befanden sich 39,4% der Befragten im Bachelor- und 
60,6 % im Masterstudium. 51,6 % der Befragten studierten Grundschullehr- 
amt, 16,4 % Haupt- und Realschullehramt und 26,9 % Lehramt für Gesamt- 
schulen und Gymnasien. Bei der Frage zum ersten studierten Fach wurde 
Deutsch mit 30 % am häufigsten genannt und Mathematik mit rund 24 % 
am zweithäufigsten. Weitere studierte Fächer waren mit rund 20 % Sport, 
Kunst oder Musik.? 


1 Die damals geltende Prüfungsordnung (LABG 2009) wurde im Jahr 2016 novelliert. Eine 
Prüfung der Dokumente zeigte, dass das Angebot an Lehrveranstaltung zur Thematik 
„Umgang mit Diversität“ für alle Studiengänge und Lehrämter gleichblieb. 

2 Weitere Merkmale wie bspw. die Studienabschnittsphase oder Praxiserfahrungen, in 
der sich die Studierenden zum Befragungszeitpunkt befanden, wurden an anderer Stelle 
untersucht und sind deshalb für diesen Beitrag nicht relevant (Gebauer & McElvany, 2017; 
Gebauer, McElvany, & Klukas, 2013). 
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4.2. Instrumente 
Intendiertes Unterrichtsverhalten 


Zwei Skalen wurden zur Erfassung des intendierten Unterrichtsverhaltens 
eingesetzt. Zum einen eine Skala mit fünf Items zur Erfassung der Absicht 
kulturell-ethnischer Diversität im Unterricht nicht zu berücksichtigen (Bei- 
spielitem: „Ich werde mich in meiner Unterrichtsvorbereitung nicht auf kultu- 
relle Unterschiede bei den Schüler/innen konzentrieren“). Sowie eine weitere 
Skala mit sieben Items, die kulturell-ethnisch Diversität berücksichtigt und 
als Indikator für einen diversitätssensiblen Unterricht steht (Beispielitem: „Ich 
werde kulturell-differenzielle lernunterstützende Anreize setzen, damit meine 
Schüler/innen ihre persönlichen Lernziele finden und strukturiert verfolgen“). 
Die theoretisch angenommene Differenz konnte anhand von Faktorenana- 
lysen (Einfaktormodell gegen ein Zweifaktorenmodell) empirisch bestätigt 
werden (Ay? = 24, Adf = 1, p < .01). Die Skalen wurden zum Zweck der Studie 
entwickelt (Gebauer, McElvany & Klukas, 2013) und die Bedeutung anderer 
Konstrukte für diese Skalen wurden bereits an anderer Stelle untersucht und 
publiziert (vgl. Gebauer & McElvany, 2017). Die Items konnten auf einem vier- 
stufigen Antwortformat beantwortet werden von 1 = trifft überhaupt nicht zu 
bis 4 = trifft voll und ganz zu (siehe Tabelle 1 für Korrelationen, Mittelwert, 
Standardabweichung und Reliabilität). 


Konsequenzen für Unterrichtsgestaltung 


Die Erfassung zur Einschätzung des Ausmaßes von Konsequenzen kultu- 
rell-ethnischer Diversität auf Aspekte des Unterrichts (Planung, Durchfüh- 
rung, Nachbereitung) wurde anhand einer für den Zweck dieser Studie ent- 
wickelten Skala anhand von fünf Items erfasst (Gebauer, McElvany & Klukas, 
2013 in Anlehnung an Maruyama et al., 2000). Das Antwortformat der Items 
reichte von 1 = gering bis keine bis 4 = sehr groß. Ein Beispielitem lautet 
„Wie groß sind Ihrer Einschätzung nach die Auswirkungen von kultureller 
Heterogenität in Schulklassen auf die Unterrichtsplanung?“ (siehe Tabelle 1 
für Korrelationen, Mittelwert, Standardabweichung und Reliabilität). 
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Akkulturation 


Die Einstellungen zur Akkulturation wurden anhand von zwei Subskalen mit 
einem bereits in anderen Studien eingesetzten und für diese Studienzwecke 
adaptierten Instrument erfasst (van Dick, Wagner, Adams & Petzel, 1997). Die 
Subskalen Integration (Beispielitem: „Lehrkräfte sollten den Kontakt zwischen 
Schüler/innen verschiedener kultureller Herkunft fördern.“), gemessen mit 
drei Items, und Assimilation (Beispielitem: „Lehrkräfte sollten darauf achten, 
dass Schüler/innen anderer ethnischer Herkunft in den Schulpausen unter 
sich nur deutsch sprechen“), gemessen mit vier Items, ließen sich anhand 
von Faktorenanalysen empirisch trennen (Ay? = 44, Adf = 1, p < .01). Die 
Items konnten anhand eines sechsstufigen Antwortformats von 1 = stimme 
überhaupt nicht zu bis 6 = stimme sehr zu beantwortet werden (siehe Tabelle 
1 für Korrelationen, Mittelwert, Standardabweichung und Reliabilität). 


Lehr-lerntheoretische Überzeugungen 


Zur Erfassung der lehr-lerntheoretischen Überzeugungen wurde ein bereits 
in anderen Studien eingesetztes Instrument verwendet (Rakoczy, Buff & 
Lipwosky, 2005). Es wurden zwei Subskalen eingesetzt, die den theoretischen 
Annahmen und der Unterscheidung in transmissive (Beispielitem: „Schüler/ 
innen können auch ohne Anleitung zu vielen Unterrichtsaufgaben Lösungen 
finden“), gemessen anhand von acht Items und konstruktivistische Uberzeu- 
gungen (Beispielitem: „Lehrkräfte sollten für das Lösen von Aufgaben detail- 
lierte Vorgehensweisen vermitteln“), gemessen mit zehn Items, entspricht 
und die anhand von Faktorenmodellprüfung bestätig werden konnte (ein 
Faktormodell gegen ein zwei Faktorenmodell Ay’ = 73, Adf = 1, p < .01). Die 
Items konnten auf einem vierstufigen Antwortformat von 1 = trifft überhaupt 
nicht zu bis 4 = trifft voll und ganz beantwortet werden (siehe Tabelle 1 für 
Korrelationen, Mittelwert, Standardabweichung und Reliabilität). 
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Berufliche Selbstwirksamkeitsüberzeugung 


Die berufliche Selbstwirksamkeitsüberzeugung wurde anhand eines adap- 
tierten Instruments mit zehn Items erfasst (Schwarzer & Schmitz, 1999). Die 
Adaption des Instruments bestand darin, dass ein Bezug zur kulturell-eth- 
nischen Diversität der Schülerinnen und Schüler aufgenommen wurde. Das 
Antwortformat der Items reichte von 1 = trifft überhaupt nicht zu bis 4 = trifft 
voll und ganz zu. Ein Beispielitem lautet „Im Hinblick auf das Unterrichten 
von kulturell heterogenen Klassen weiß ich, dass ich es schaffen werde, die 
erwarteten Lerninhalte zu vermitteln, wenn ich mich darum bemühe.“ (siehe 
Tabelle 1 für Korrelationen, Mittelwert, Standardabweichung und Reliabilität). 

Die Einschätzung und Bewertung des in der Universität erworbenen 
Sachwissens und Handlungswissens wurde mit Notenbewertungen von 
1 = sehr gut bis 6 = unbefriedigend abgefragt. 

Die Erfahrungen mit kulturell-ethnisch diversen Klassen konnten die 
Studienteilnehmerinnen und -teilnehmer mit einer prozentualen Anteil- 
seinschätzung bewerten, die von 0 = 0-9.99 % bis 9 = 90-100 % reichte. 

Zur Kontrolle wurde das Geschlecht in die Analysen aufgenommen 
1 = weiblich und 2 = männlich. 


4.3. Analyseverfahren 


Für die deskriptiven Auswertungen und Vorbereitungen der Daten für weitere 
Analyseschritte wurde das Programm SPSS 27 (IBM SPSS Statistics, 2020) 
genutzt. Für die Prüfung der Konstrukte, Überprüfung der Forschungsfragen 
und angenommenen Zusammenhänge zwischen den Konstrukten wurden 
latente konfirmatorische Faktorenanalysen und Strukturgleichungsmodelle 
mithilfe des Programms Mplus 8 (Muthen & Muthen, 1998-2017) berechnet. 
Für die Bewertung der Modelle wurden die üblichen Grenzwerte der Fitstatis- 
tiken genutzt (Comparative Fit Index [CFI]; Tucker-Lewis-Index [TLI]; Root 
Mean Square Error of Approximation [RMSEA] und Standardized Root Mean 
Square Residual [SRMR]). Hier zeigten sich akzeptable Werten fiir die CFI- 
und TLI-Werte ab .90 und RMSEA und SRMR unter .08 (Hu & Bentler, 1999) 
sowie x’ und Freiheitsgrade (df). Bei der Schätzung dieser Modelle werden 
Korrelationen der Residualvarianzen zwischen Variablen mit gleichen Item- 
stämmen zugelassen. Fehlende Werte wurden anhand der Einstellung FIML 
(Full Information Maximum Likelihood-Estimation, Asparouhov & Muthen, 
2010) berücksichtigt. Die dafür vorliegende Eigenschaft der fehlenden Werte 
missing completly at random (MCAR, Rubin, 1976) wurde anhand des Little 
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Tests (Little, 1988, siehe Tabelle 1 für Prozentangaben der fehlenden Werte) 
geprüft und bestätigt. 


5. Ergebnisse 


Anhand der Deskriptiva in Tabelle 1 werden die angenommenen korrelativen 
Zusammenhänge zwischen den Skalen zur Messung der Überzeugungen und 
den Skalen zur Messung der intendierten Unterrichtsgestaltung ersichtlich. 
Es können statistisch signifikante negative Zusammenhänge zwischen der 
Skala intendierter Unterricht ohne Berücksichtigung von Diversität und den 
Subskalen zur Messung konstruktivistischer lehr-lerntheoretischer Über- 
zeugungen, Akkulturation Subskala Integration und berufliche Selbstwirk- 
samkeitsüberzeugung festgestellt werden und statistisch signifikante posi- 
tive Zusammenhänge zwischen den Subskalen zur Messung transmissive 
lehr-lerntheoretischer Überzeugungen und Akkulturation Subskala Assimila- 
tion. Statistisch signifikante positive Zusammenhänge können zwischen der 
Skala zur Messung eines intendierten diversitätssensiblen Unterrichts, den 
Skalen Konsequenzen für den Unterricht, Akkulturation Subskala Integra- 
tion, konstruktivistische lehr-lerntheoretische Überzeugungen und berufliche 
Selbstwirksamkeitsüberzeugung beobachtet werden. Statistisch signifikante 
negative Zusammenhänge zeigten sich zwischen Subskalen transmissive 
lehr-lerntheoretischer Überzeugungen und Akkulturation Subskala Assimi- 
lation. 

Bei simultaner Berücksichtigung der Zusammenhänge in einem Struk- 
turgleichungsmodell mit akzeptablen Fitwerten (x? [970] = 1238.95; CFI = 
.92; TLI = 91; RMSEA = .03; SRMR = .06) gemessen anhand latenter Vari- 
ablen können Zusammenhangsgrößen in erwarteter Richtung beobachtet 
werden, die aufgrund geteilter Varianz geringer ausfallen als die bivariaten 
korrelativen Zusammenhänge. 

Für die Erklärung eines intendierten Unterrichts ohne Berücksichtigung 
von Diversität sind statistisch signifikante negative Pfadkoeffizienten von 
Akkulturation Subskala Integration, konstruktivistischen lehr-lerntheoreti- 
schen Überzeugungen und beruflicher Selbstwirksamkeitsüberzeugung zur 
abhängigen Variable zu beobachten. Statistisch signifikante positive Pfad- 
koeffizienten sind zwischen der latenten Variable intendierter Unterricht 
ohne Berücksichtigung und transmissiven lehr-lerntheoretischer Überzeu- 
gungen festzustellen. 
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Abbildung 1: Ergebnisse der Analyse Zusammenhänge und Pfadkoeffizienten der 
untersuchten Konstrukte 
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Statistisch signifikante positive Pfadkoeffizienten zeigten sich zwischen Kon- 
sequenzen fiir den Unterricht, Akkulturation Subskala Integration, berufliche 
Selbstwirksamkeitsiiberzeugung und der zweiten abhangigen Variable inten- 
dierte diversitätssensible Unterrichtsgestaltung. 
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Negative statistisch signifikante Pfadkoeffizienten können zwischen der 
Erfahrung mit kultureller Diversität und der Variable intendierter Unter- 
richt ohne Berücksichtigung von Diversität festgestellt werden sowie zwi- 
schen dem Geschlecht und der Variable intendierte diversitätssensible Unter- 
richtsgestaltung. Die R? Werte weisen darauf hin, dass 61% und 53 % der 
Varianz durch die unabhängigen Variable erklärt werden können (Reinecke 
& Pöge, 2010). 


6. Diskussion 


Ziel dieser Studie war es, die Überzeugungen von angehenden Lehrkräften 
in Bezug aufintendiertes Unterrichtsverhalten zu untersuchen. Dabei fanden 
lehrkraftseitige Überzeugungen Berücksichtigung, die angehende Lehrkräfte 
bezugnehmend auf die Unterrichtsgestaltung haben, auf schiilerseitige Akkul- 
turationsprozesse, auf Wissensaneignungs- und Wissensvermittlungspro- 
zesse sowie in Bezug auf eigene Fähigkeiten, kulturell-ethnische Diversität 
zu berücksichtigen. Die Intentionen der zukünftigen Unterrichtsgestaltung 
wurde mit einer Gegenüberstellung von zwei Standpunkten, einen diversi- 
tätssensiblen Unterricht zu konzertieren im Gegensatz zu einem Unterricht, 
in dem Diversität nicht zu berücksichtigt werden soll, ermittelt. Die in dieser 
Studie gefundenen Ergebnisse entsprachen jedoch nicht allen zuvor formu- 
lierten Erwartungen. 

Die erste Fragstellung zur Einschätzung des Ausmaßes an Konsequen- 
zen für die Vor-, Nachbereitung und Durchführung von Unterricht für eine 
kulturell-ethnisch diverse Schülerschaft ist nur für eine diversitätssensible 
Unterrichtsgestaltung bedeutsam. Angehende Lehrkräfte, die eine realis- 
tische Einschätzung dahingehend haben, in welchem Ausmaß die Unter- 
schiede zwischen den Schülerinnen und Schülern die Planung, Nachbe- 
reitung und Durchführung von Unterricht beeinflussen, sind diejenigen, 
die dies im späteren Unterricht umzusetzen beabsichtigen. Dies scheint im 
Gegensatz zu Studienergebnissen zu stehen, bei denen keine Relevanz der 
Kosten im Sinne eines zusätzlichen und eher belastend wahrgenommenen 
Arbeitsaufwandes erfasst wurden (Gebauer & McElvany, 2017; Gebauer 
& McElvany, 2020). Möglicherweise ist das mit der weniger bewertenden 
Erfassung der zu erwartenden Konsequenzen für die Unterrichtsgestal- 
tung zu erklären. Gleichzeitig sprechen diese Ergebnisse dafür, dass ange- 
hende Lehrkräfte bereits während der universitären Ausbildungsphase eine 
Einschätzung dahingehend entwickelt haben, welche sozialen Aspekte der 
Schülerinnen und Schüler für die tägliche schulische Arbeit relevant sind. 
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Mit Hinblick aufintegrative Akkulturationsüberzeugungen der angehen- 
den Lehrkräfte, die mit der zweiten Forschungsfrage in den Blick genommen 
wurden, zeigen die Daten wie erwartet eine positive Bedeutsamkeit für eine 
diversitätssensible Unterrichtsgestaltung und negative Zusammenhänge für 
einen Unterricht, in dem kulturell-ethnische Diversität unberücksichtigt 
bleibt. Angehende Lehrkräfte, die der Ansicht sind, dass die eigene Her- 
kunftskultur oder die der Eltern und Großeltern neben der Aufnahmekultur 
bewahrt und wertgeschätzt werden sollte, sind eher dazu bereit, in einem 
späteren Unterricht die kulturell-ethnischen Unterschiede der Schülerinnen 
und Schüler wertschätzend im Unterricht wahrzunehmen und einzubinden. 
Demnach scheint es so zu sein, dass sich dies bei angehenden Lehrkräften, 
die in Bezug auf Strategien zwischen ethnisch-kulturellen Gruppen eine 
integrative Vorstellungen haben (Sam & Berry, 2006), in ihrer Unterrichts- 
gestaltung niederschlägt. Nicht erklärt werden kann, dass trotz statistisch 
signifikanter bivariater korrelativer Zusammenhänge keine Bedeutsamkeit 
der assimilierenden Vorstellungen gefunden werden kann. Aus methodi- 
scher Sicht könnte ein mediierender Zusammenhang angenommen wer- 
den, wenn Pfadkoeffizienten nach Berücksichtigung weiterer Variablen an 
Bedeutung verlieren (Hayes & Preacher, 2014). Andererseits kann keine the- 
oretische Annahme dahingehend formuliert werden, welche Überzeugung 
einer anderen Überzeugung übergeordnet ist und diese beeinflusst. Viel- 
mehr besteht weitgehend Konsens dahingehend, dass Überzeugungen eher 
in wechselseitigen Zusammenhängen stehen und Wissen, Erfahrungen und 
kontextuelle Faktoren wichtig für die Herausbildung von Überzeugungen 
sind (Bosse et al., 2017; Levin, 2014). Anschlussfähig sind die Befunde dieser 
Studie zu anderen Studienergebnissen, die zeigen, dass konstruktivistische 
lehr-lerntheoretische Vorstellungen zu einer differenzierenden Unterrichts- 
gestaltung führen. 

Sowohl konstruktivistische als auch transmissive lehr-lerntheoreti- 
sche Überzeugungen der befragten Studierenden, die mit der dritten For- 
schungsfrage adressiert wurden, sind für eine zukünftige Unterrichtsgestal- 
tung bedeutsam, in der Diversität keine Berücksichtigung findet, nicht aber 
für eine diversitätssensible Unterrichtsgestaltung. Dabei konnten hier die 
erwarteten negativen Zusammenhänge zwischen Unterricht, in dem Diver- 
sität nicht berücksichtigt werden soll, und konstruktivistischen lehr-lern- 
theoretischen Überzeugungen sowie positive Zusammenhänge zwischen 
transmissiven lehr-lerntheoretischen Überzeugungen festgestellt wurden. 
Die Annahme, dass konstruktivistische Überzeugungen, bei denen Lern- 
prozesse als eigenständige Erkenntnisprozesse angesehen werden, ebenfalls 
zu einer größeren Berücksichtigung sozialer Merkmale von Schülerinnen 
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und Schülern im Unterricht führt, kann nicht bestätigt werden. Gleichzeitig 
beabsichtigen diese Studierenden, Diversität nicht gänzlich unberücksich- 
tigt zu lassen. Dieser Befund ist anschlussfähig zu Studienergebnissen, die 
lehr-lerntheoretische Überzeugungen auf weitere Aspekte eines erweiterten 
Inklusionsverständnisses untersucht haben (Börnert-Ringleb et al., 2020). 
Des Weiteren würde dies für eine differenzierte Vorstellung der angehen- 
den Lehrkräfte in Bezug auf schülerseitige Merkmale sprechen und dafür, 
dass die Vorstellungen bezugnehmend auf kognitive Lernprozesse der Schü- 
lerinnen und Schüler unabhängig von den herkunftsbezogenen Merkma- 
len gesehen werden. Darüber hinaus sprechen diese Ergebnisse dafür, dass 
die Ansichten von angehenden Lehrkräften, Diversität zu berücksichtigen 
oder unberücksichtigt zu lassen, keine austauschbaren Konstrukte sind, bei 
denen das eine Konstrukt als negativer Pol des anderen betrachtet werden 
kann (Maggioni & Parkinson, 2008). 

Die selbstbezogenen Kompetenzwahrnehmungen in Bezug auf das 
Unterrichten kulturell-ethnisch diverser Schülergruppen sind für beide 
Unterrichtsgestaltungen bedeutsam und wurden in der vierten Forschungs- 
frage adressiert. Dies unterstützt eine Reihe an Forschungsergebnissen, in 
denen die Bedeutsamkeit der berufsbezogenen Selbstwirksamkeitsüberzeu- 
gung für die Unterrichtsgestaltung untersucht wurde (Gebauer & McElvany, 
2017; Bosse & Sprörer, 2014). Angehende Lehrkräfte, die eine hohe Kompe- 
tenzwahrnehmung haben, sind eher dazu bereit, einen diversitätssensiblen 
Unterricht anzubieten. Dabei muss relativierend berücksichtigt werden, dass 
die berufsbezogene Selbstwirksamkeitsüberzeugung bei angehenden Lehr- 
kräften während des Studiums höher ist als bei Lehrkräften in den ersten 
Jahren im schulischen Dienst (Woolfolk Hoy & Spero, 2005). Dies scheint 
ebenso für die Selbstwirksamkeitsüberzeugung in Bezug auf inklusives 
Arbeiten zu gelten (Hecht & Weber, 2020). 

Limitationen, die hinsichtlich der Ergebnisse einschränkend berück- 
sichtigt werden müssen, sind unter anderem, dass die Stichprobe dieser 
Untersuchung keine Aussagen dazu zulässt, ob die angehenden Lehr- 
kräfte ihren Unterricht zukünftig tatsächlich diversitätssensibel gestalten 
werden. Bekanntlich kann eine Intention lediglich als Indikator für künf- 
tiges Verhalten betrachtet werden (Ajzen & Fishbein, 2005). Hier würden 
Untersuchungen von Lehrkräften im schulischen Dienst in Verbindung 
mit Unterrichtsbewertungen durch externe Beobachterinnen und Beob- 
achter und schülerseitigen Einschätzungen den Erkenntnisstand in diesem 
Bereich ergänzen. Darüber hinaus ist bei Befragungen, insbesondere bei 
normativ aufgeladenen gesellschaftspolitischen Themen wie dem Umgang 
mit kulturell-ethnischer Diversität, davon auszugehen, dass die Befragten 
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sozial erwünschte Antworten auf die Fragen geben (Krumpal, 2013). Ver- 
gleichende Analysen zwischen impliziten und expliziten Einstellungen in 
Bezug auf kulturell-ethnische Diversität belegen jedoch keine Unterschiede 
zwischen explizit und implizit gemessen Einstellungen (Kleen et al., 2019), 
wobei die zur Diskussion gestellte Validität impliziter Messverfahren relati- 
vierend berücksichtigt werden muss (z.B. Kurdi et al., 2021). 

Mit den geprüften Konstrukten und Zusammenhängen liefern die 
Befunde einen Beitrag zur weiteren Untersuchung von Überzeugungen 
angehender Lehrkräfte. Schließlich kann vor dem Hintergrund reziproker 
Zusammenhänge untereinander zu weiteren Konstrukten (z.B. Tassell et al., 
2020) und über die Zeit (Hecht & Weber, 2020) die Relevanz der univer- 
sitären Lehrkräfteausbildung, in der Überzeugungen stärker in den Fokus 
gerückt werden sollten, hervorgehoben werden. 
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Prozessbezogene 
Diagnosequalität im Kontext von 
Schullaufbahnentscheidungen 


Stefanie van Ophuysen, Lars Behrmann & Sina Schürer 


Zusammenfassung 


Übergänge in der Schullaufbahn sind wichtige Weichenstellungen für die 
Bildungsbiografie der Schüler*innen. Für lehrkraftseitige Einschätzun- 
gen der Schulformeignung ist die Frage nach der Qualität des zugrunde 
liegenden Diagnoseprozesses von besonderer Bedeutung. Aufbauend auf 
dem Vierkomponentenmodell der Diagnosequalität (Behrmann & van 
Ophuysen, 2017) werden Prozessmerkmale einer qualitativ hochwertigen 
Diagnostik herausgearbeitet. Dabei stehen die Schullaufbahnempfehlun- 
gen am Ende von Grundschulzeit sowie Erprobungsstufe als diagnosti- 
sche Anlässe im Fokus. Der Beitrag geht folgenden Fragen nach: Als wie 
wichtig erachten Lehrkräfte die Aspekte prozessbezogener Diagnosequa- 
lität? Welche Aspekte finden Eingang in ihr diagnostisches Handeln? Wie 
hoch ist die selbst wahrgenommene Diagnosequalität? Die Daten einer 
schriftlichen Befragung von Grundschullehrkräften und Lehrkräften aus 
(Ganztags-)Gymnasien zeigen, dass (Selbst-)Einschatzungen von Wich- 
tigkeit und Qualität in beiden Schulstufen gleichermaßen hoch ausfallen. 
Schulstufenunterschiede zeigen sich bei der selbstberichteten Umsetzung 
verschiedener Prozessmerkmale. Die Befunde werden vor dem Hinter- 
grund professionellen Lehrkrafthandelns diskutiert. 


Schlagworte: Diagnostik, Diagnosequalität; Übergänge; Grundschule; 
Erprobungsstufe 


Abstract 


School transitions are important milestones for the (educational) biography 
of students. Teachers assessment of students‘ qualifications for different 
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school tracks and the quality ofthe underlying diagnostic process are par- 
ticularly important. Drawing on the Four-Component-Model of diagnostic 
quality (Behrmann & van Ophuysen, 2017), we identify process features 
that are characteristic of a high-quality diagnosis. We focus on school track 
recommendations at the end of primary school and „probationary stage“ 
(after grade 6). This paper asks: How important are features of diagnostic 
process quality from the teachers‘ perspective? Which aspects are evident 
in their diagnostic activities? How well rate teachers their own diagnostics? 
Data from a survey of primary school and (all-day) high school („Gymna- 
sium“) teachers reveal that teachers‘ ratings of (self-)perceived importance 
and quality are equally high in both levels of school,. However, school level 
specific differences emerge in the self-reported implementation of various 
process features. The findings are discussed in terms of professional teacher 
action. 


Keywords: diagnosis; diagnostic quality; transition; primary school; pro- 
bational stage 


1. Einleitung 


Die Bildungsbiografie eines jeden Menschen ist durch zahlreiche Übergänge 
geprägt. Hierzu zählen bspw. der Übergang von der Kita in die Grundschule, 
von der Grundschule in die weiterführende Schule, ggf. ein Wechsel in einen 
anderen Bildungsgang innerhalb der Sekundarstufe I oder der Wechsel von 
der Schule in die Ausbildung oder das Studium. Diesen Übergängen gehen 
entsprechende Übergangsentscheidungen voraus, die von Eltern oder Lehr- 
kräften - bestenfalls in Übereinstimmung mit den Kindern - getroffen wer- 
den müssen. In unserem Beitrag fokussieren wir die Übergangsentscheidung 
der Lehrkräfte in Nordrhein-Westfalen (NRW) von der Grund- in die wei- 
terführende Schule sowie die Entscheidung am Ende der Erprobungsstufe in 
Klasse 6 auf dem Gymnasium. 


2. Übergänge in der Bildungslaufbahn 
2.1. Rechtliche Rahmenbedingungen 
In den meisten Bundesländern, so auch in NRW, wechseln Kinder am Ende 


der vierten Klasse auf die weiterführende Schule. Je nach Bundesland stellt die 
Schulformempfehlung der Lehrkraft am Ende von Klasse 4 eine Vorgabe oder 
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eine Orientierung für die Entscheidung der Eltern dar (Porsch, 2018). In eini- 
gen Bundesländern wird die Empfehlung für den Besuch einer bestimmten 
Schulform basierend auf den Noten in den Hauptfächern getroffen (z. B. Schu- 
lordnung für die Grundschulen in Bayern, $ 6). In NRW erstellt die Grund- 
schule mit dem Halbjahreszeugnis der Klasse 4 eine begründete Empfehlung 
für die weiterführende Schulform (SchulG NRW, $ 11, Abs. 5; Ministerium 
für Schule und Weiterbildung des Landes Nordrhein-Westfalen (MSBNRW), 
2022b, AO-GS, § 8). Charakteristisch für NRW - aber auch für viele andere 
Bundesländer - ist, dass die Schulformempfehlung der Grundschule nicht 
bindend ist. Nach der verbindlichen Beratung mit der Klassenlehrkraft zur 
weiteren schulischen Förderung (MSB NRW, 2022b, AO-GS, $ 8) entscheiden 
die Eltern über den weiteren Bildungsgang ihrer Kinder (SchulG NRW, $ 11, 
Abs. 6.). Wenngleich die Lehrkrafteinschätzung am Ende der Grundschulzeit 
in den meisten Bundesländern nur empfehlenden Charakter hat, folgen Eltern 
dieser häufig (MSB NRW, 2022a; Pohlmann, 2009). Insbesondere der Gymna- 
sialempfehlung folgen die meisten Eltern (zusammen mit der eingeschränk- 
ten Empfehlung: -93%). Am geringsten fällt die Übereinstimmung mit der 
Empfehlung für die Hauptschule aus (-83 %). Eltern wählen als Alternative 
zu dieser Schulform zumeist ein integriertes Schulsystem wie die Sekundar- 
oder Gesamtschule (MSB NRW, 2022a). 

In der weiterführenden Schule durchlaufen die Schüler*innen in NRW, 
aber auch in anderen Bundesländern (z.B. Ministerium für Bildung und 
Kindertagesstätten des Landes Mecklenburg-Vorpommern, SchulG Meck- 
lenburg-Vorpommern, $ 15 Orientierungsstufe), zunächst die sog. Orientie- 
rungs- oder Erprobungsstufe in den Klassen 5 und 6. Wie der Name sagt, 
dienen diese zwei Jahre der „Erprobung, Förderung und Beobachtung der 
Schülerinnen und Schüler, um in Zusammenarbeit mit den Eltern die Ent- 
scheidung über die Eignung der Schülerinnen und Schüler für die gewählte 
Schulform sicherer zu machen.“ (SchulG NRW, $ 13, Abs. 2). Halbjährlich 
berät die Erprobungsstufenkonferenz, ob ein Schüler oder eine Schülerin 
in einer anderen Schulform besser gefördert werden kann und empfiehlt 
den Eltern ggf. den Wechsel der Schulform (MSB NRW, 2002c, APO-S I 
NRW, $ 11, Abs. 1). Mit dem Ende der Erprobungsstufe steht eine endgül- 
tige Überprüfung der Schulformwahl an. Die Erprobungsstufenkonferenz 
prüft „unter Berücksichtigung des Leistungsstandes, der bisherigen von der 
Schule durchgeführten Fördermaßnahmen und der zu erwartenden Ent- 
wicklung der Schülerin oder des Schülers, ob die gewählte Schulform weiter- 
hin besucht oder die Schulform gewechselt werden soll“ (MSB NRW, 2022c, 
APO-S INRW, $ 11, Abs. 1). Für das Gymnasium bedeutet dies, dass die 
Klassenkonferenz über die Eignung der Kinder entscheidet und beschließt, 
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ob die Kinder den gewählten Bildungsgang fortsetzen können (SchulG NRW, 
$ 13, Abs. 2). Bei Nichteignung wechseln die Schüler*innen nach Wahl der 
Eltern entweder an die Real- oder die Hauptschule. Das Elternwahlrecht ist 
jedoch dann eingeschränkt, wenn die Versetzungskonferenz feststellt, dass 
keine Eignung für die Realschule vorliegt. In diesem Fall erfolgt ein Wechsel 
zur Hauptschule (MSB NRW, 2002c, APO-S I NRW, $ 11, Abs. 3). 


2.2. Relevanz des Übergangs 


Diese beiden Übergänge sind wichtige Weichenstellungen für die Bildungs- 
biografie der Schüler*innen. Besonders bedeutsam ist der Übergang von 
der Grundschule zur weiterführenden Schule. Rund 700.000 Schüler*innen 
in Deutschland wechseln jährlich von der Grund- auf eine weiterführende 
Schule (Statistisches Bundesamt, 2021), davon allein in NRW über 155.000 
Schüler*innen (MSB NRW, 2022a). Die besuchte weiterführende Schulform 
ist maßgeblich für den Bildungsabschluss und damit für den späteren berufli- 
chen Werdegang der Schüler*innen (z.B. Baumert & Schümer, 2001; Merkens 
& Wessel, 2002). Je nach weiterführendem Schultyp werden spezifische Lern- 
und Entwicklungsmöglichkeiten geboten, die sich auf den Kompetenzerwerb 
auswirken (z.B. Baumert et al., 2009). Maaz et al. (2006, S. 322) bezeichnen 
den Grundschulübergang als „eine der wichtigsten Statuspassagen im Leben 
eines jungen Menschen“. 

Die Formation der Übergangsempfehlung stellt somit eine Aufgabe 
mit weitreichenden Folgen für die Bildungsbiografie der Schüler*innen 
dar. Aber auch die Entscheidung über den Verbleib oder das Verlassen der 
weiterführenden Schule am Ende der Erprobungsstufe stellt eine für den 
weiteren Bildungsverlauf relevante Eignungseinschätzung durch die Lehr- 
kräfte dar. Neben den langfristigen Folgen sind hier aber insbesondere auch 
die sozial-emotionalen Konsequenzen einer „Abschulung“ in den Blick zu 
nehmen. Auch wenn mit dem Wechsel vom Gymnasium an eine andere 
Schulform mittelfristig möglicherweise negative Aspekte des Besuchs des 
Gymnasiums, wie ein zu hoher Leistungsdruck, wegfallen, so bedeutet die 
Entscheidung der Nichteignung für das Kind zunächst einmal ein Scheitern 
und ist häufig mit Selbstzweifeln verbunden. Zudem hängt mit dem Wechsel 
ein neues soziales Umfeld, konkret eine neue Gruppe von bereits bestehen- 
den Peers zusammen, in welche das Kind als Neuankömmling hineinfin- 
den muss. Studien zu Effekten des Schulformwechselns auf sozial-emotio- 
nale Variablen sind den Autor*innen nicht bekannt. Die Situation ist aber 
vergleichbar mit dem emotionalen Erleben bei Klassenwiederholungen. Die 
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Befundlage hierzu ist uneindeutig. In einer älteren qualitativen Studie zum 
Thema Klassenwiederholung zeigt Bynres (1989) negative Emotionen der 
Klassenwiederholer*innen auf. Diese schämen sich, sind traurig und das 
Sitzbleiben wird als Versagen gewertet. Auch die Meta-Analyse von Jimer- 
son (2001) zeigt für Klassenwiederholer*innen für sozial-emotionale Vari- 
ablen negativere Werte im Vergleich zu einer Kontrollgruppe. Sechstkläss- 
ler*innen zählen Klassenwiederholungen zu den stressreichsten Ereignissen, 
die sie sich vorstellen können. (Anderson et al., 2005). Brophy (2006, S. 16) 
fasst die internationale Befundlage mit den Worten zusammen: „School-im- 
posed grade repetition is stressful to students and associated with reduced 
self-esteem, impaired peer relationships, alienation from school, and shar- 
ply increased likelihood of eventual dropout“. In einer aktuelleren Studie 
mit einem großen NEPS-Datensatz wurde der Effekt der Klassenwiederho- 
lung auf das schulische Wohlbefinden von Schüler*innen der Klassen 5 bis 
12 längsschnittlich untersucht. Entgegen der Erwartungen zeigen sich hier 
keine negativen Effekte der Klassenwiederholung. Insbesondere für Gymna- 
siasten zeigt sich ein positiver unmittelbarer, kurz-, mittel- und langfristiger 
Effekt auf die Schulzufriedenheit (Rathmann et al., 2020). Die Autor*innen 
erklären dies aber ggf. mit einem hohen Anteil an freiwilligen Rücktritten. 

Das Verlassen des Gymnasiums bei einer Nicht-Eignung erfolgt jedoch 
nicht freiwillig und da nicht nur die Klasse, sondern das komplette schuli- 
sche Umfeld wechselt, ist eher mit noch stärkeren negativen sozial-emotio- 
nalen Konsequenzen zu rechnen, als bei der (unfreiwilligen) Klassenwieder- 
holung. 

Aufgrund der hohen Relevanz dieser Übergangsentscheidungen und 
ihrer Funktion als Gelenkstelle im Bildungssystem wäre zu erwarten, dass 
diese so akkurat wie möglich nach klaren Regelungen erfolgen. Während es 
in NRW für den Abschluss der Erprobungsstufe auf den ersten Blick sehr 
konkrete Vorgaben gibt, sind die Kriterien, auf die Lehrkräfte am Ende von 
Klasse 4 bei der Schulformempfehlung zurückgreifen können, sehr vage. 

Die Versetzungsordnung der Erprobungsstufe regelt in NRW den Über- 
gang in Klasse 7 und einen möglichen Schulformwechsel (Versetzungs- 
ordnung in der Erprobungsstufe, APO S L NRW). Ausschlaggebend sind 
hierbei die Noten, in welche zumeist schriftliche und „sonstige Leistungen 
im Unterricht“ einfließen. Die weiteren Vorgaben hierzu sind jedoch sehr 
vage gehalten und es ist unstrittig, dass die Vergabe von Noten ein komple- 
xer Prozess ist, der von Lehrkräften individuell unterschiedlich ausgestal- 
tet wird (Lintorf, 2012; Kap. 4.1). Diskussionen um die Güte von Schulno- 
ten haben eine lange Tradition (vgl. Ingenkamp, 1975, 1995). Auch wenn 
Schulnoten in Studien zur prognostischen Validität relativ gut abschneiden 
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(z.B. als Prädiktor des Schul- oder Studienerfolgs), so sind „Korrelationen 
von r = .50 oder r = .60, wie sie für die prognostische Validität und auch 
für die Übereinstimmungsvalidität die Regel sind, wenig wünschenswert“, 
wenn man sich die individuellen Konsequenzen der Notengebung vergegen- 
wärtigt (Lintorf, 2012, S. 51). 

Für die Empfehlung am Ende der Grundschulzeit führt das Schulgesetz 
(SchulG NRW, $ 11, Abs. 5) als Kriterien den Leistungsstand, die Lernent- 
wicklung und die Fähigkeiten der Schüler*innen an. Das Sekretariat der 
Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik 
Deutschland (KMK, 2015) spricht von der Empfehlung des Bildungsweges, 
der der Bildungsfähigkeit der Kinder entspricht und führt weiter aus, dass 
„auch Eignung, Neigung und Wille des Kindes zu geistiger Arbeit insgesamt 
zu werten“ sind (KMK, 2015). Weiter wird formuliert, dass „nicht nur die 
Leistungen in Bezug auf die fachlichen Ziele der Lehrpläne, sondern auch 
die für den Schulerfolg wichtigen allgemeinen Fähigkeiten“ (KMK, 2015) 
zu berücksichtigen sind. Nähere Ausführungen hierzu fehlen. Da es keine 
konkreteren Hinweise hierzu gibt, ist die Qualität des zugrunde liegenden 
Diagnoseprozesses von besonderer Bedeutung. 

Zusammenfassend ist festzuhalten, dass aufgrund der Bedeutsamkeit der 
Entscheidungen Lehrkräften eine hohe Verantwortung zukommt. Daher 
sollten sie eine möglichst qualitätsvolle Diagnostik anstreben. 


3. Pädagogische Diagnostik 


Die Empfehlungen zum Schulformwechsel am Ende von Grundschulzeit 
sowie Erprobungsstufe erfordern von den Lehrkräften eine gute Kenntnis 
des individuellen Kindes. Dieses Wissen sollte jeweils das Ergebnis eines 
professionellen, pädagogischen diagnostischen Prozesses sein. Diagnostik 
beschreibt allgemein einen Prozess, bei dem Informationen über Personen 
erhoben werden, sodass Unterschiede oder Gemeinsamkeiten zwischen ver- 
schiedenen Individuen eindeutig festgestellt werden können (Fisseni, 2004, 
S. 4). Nach Klauer (1982, S. 5) kann diese Informationserfassung dann als 
„pädagogische“ Diagnostik bezeichnet werden, wenn sie „im Dienst aktueller 
pädagogischer Entscheidungen“ steht. Zur pädagogischen Diagnostik zählt 
ein Akt der Informationsbeschaffung also erst dann, wenn mit der gewon- 
nenen Information unmittelbar pädagogisch gearbeitet wird. 

Ingenkamp und Lissmann (2008) spezifizieren die Inhalte und Ziele 
der Anschlusshandlungen weiter aus und fokussieren dabei insbesondere 
auf das Lernen der Schüler*innen. Sie verstehen unter pädagogischer Diag- 
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nostik „alle diagnostischen Tätigkeiten, durch die bei einzelnen Lernenden 
und den in einer Gruppe Lernenden Voraussetzungen und Bedingungen 
planmäßiger Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und 
Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren“ 
(S. 13). Als weitere Ziele benennen sie „die Zuweisung zu Lerngruppen oder 
zu individuellen Förderungsprogrammen [...] sowie die mehr gesellschaft- 
lich verankerten Aufgaben der Steuerung des Bildungsnachwuchses oder 
der Erteilung von Qualifikationen“ (ebd.). Diese Definition umfasst sowohl 
Elemente formativer (Optimierung individuellen Lernens) als auch summa- 
tiver Diagnostik (Qualifikationsentscheidungen). 

Lintorf et al. (2016) beschreiben die im Rahmen des diagnostischen Pro- 
zesses stattfindenden Tätigkeiten etwas genauer, indem sie pädagogische 
Diagnostik definieren als „das systematische, zielbezogene Erfassen („wahr- 
nehmen“), das Dokumentieren und Verfügbarhalten („behalten und erin- 
nern“) sowie Analysieren und Verdichten („verarbeiten“) von Informationen 
über individuelle Schüler:innen und Gruppen von Schüler:innen, mit dem 
Ziel, Entscheidungen im Rahmen der professionellen Aufgaben als Lehrkraft 
(erziehen, unterrichten, bewerten, beraten) begründet vornehmen zu kön- 
nen“. 

Der Schulalltag birgt eine Vielzahl diagnostischer Situationen, die von 
Lehrkräften bewältigt werden müssen (vgl. Karst et al., 2017). Die Erteilung 
der Übergangsempfehlung bzw. die Entscheidung über den Schulformwech- 
sel respektive -verbleib sind konkrete diagnostische Anlässe, bei denen ein 
komplexes Urteil auf Basis vielfältiger Informationen gefällt wird. So belegt 
die empirische Forschung zu den Kriterien der Übergangsempfehlung zwar, 
dass die schulischen Leistungen bzw. Noten als wichtigste Prädiktoren gel- 
ten können (Glock et al., 2013). Regressionsanalytische Studien zeigen aber 
darüber hinaus, dass Arbeitstugend und motivational-affektive Schüler- 
merkmale auch bei Kontrolle der Leistung einen eigenständigen Beitrag 
zur Vorhersage der Empfehlung leisten (Arnold et al., 2007; Stubbe & Bos, 
2008), während das Sozialverhalten keinen inkrementellen Beitrag liefert 
(Klapproth et al., 2013; Stahl, 2007) und weitere Persönlichkeitsmerkmale 
kaum untersucht werden (siehe aber Lintorf & van Ophuysen, 2022). Wer- 
den die Lehrkräfte hingegen selbst gebeten, diejenigen Kriterien zu nennen, 
die sie für die Formation der Empfehlung heranziehen, so wird dem Sozi- 
alverhalten und Persönlichkeitsmerkmalen des Kindes (z.B. Extraversion, 
Gelassenheit) durchaus Bedeutsamkeit zugeschrieben (Diebig, 2016; Pohl- 
mann, 2009). Ebenfalls berichten Lehrkräfte, dass sie die wahrgenommenen 
elterlichen Unterstützungsmöglichkeiten als wichtiges Entscheidungskrite- 
rium berücksichtigen (Sneyers et al., 2019), insbesondere bei Kindern mit 
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uneindeutigem Leistungsprofil (Hollstein, 2008; Wiedenhorn, 2011). Merk- 
male des familiären Kontextes wie Bildungs- oder Migrationshintergrund 
werden hingegen nicht als bedeutsame Empfehlungskriterien benannt, 
obwohl sich zumindest der Bildungshintergrund in regressionsanalytischen 
Studien wiederholt als wichtiger statistischer Prädiktor der Empfehlung 
herausgestellt hat (siehe zusammenfassend Glock et al., 2013). Gerade die 
Interviewstudien mit Lehrkräften verdeutlichen, dass sie die Formation der 
Übergangsempfehlung als eine Aufgabe ansehen, bei der vielfältige Schü- 
ler*innenmerkmale (und zum Teil auch Merkmale der Familie) zu einem 
Gesamturteil integriert werden müssen. Ein systematischer diagnostischer 
Prozess ist somit unerlässlich, um die vielfältigen Informationen valide zu 
erfassen und adäquat zu integrieren. Doch wie gut bewältigen Lehrkräfte 
diese anspruchsvolle Aufgabe? 


4. Diagnostische Kompetenz 


Unter dem Stichwort der „diagnostischen Kompetenz“ wird in der empiri- 
schen Forschung überprüft, wie gut Lehrkräften das Diagnostizieren gelingt. 
Dabei steht häufig die Urteilsakkuratheit als Indikator der Diagnosekom- 
petenz im Fokus. Dies erscheint auf den ersten Blick naheliegend, da hohe 
Kompetenz die Wahrscheinlichkeit eines guten - also korrekten, akkuraten - 
Urteils impliziert, während fehlerhafte Urteile nur sehr selten vorkommen 
sollten. Als klassisches Beispiel kann die Einschätzung der Fachleistung von 
Schüler*innen gelten. Diese Lehrkrafturteile werden mit der tatsächlichen 
Leistung der Kinder verglichen, die diese in der Regel in einem standardi- 
sierten Leistungstest erbracht haben. In empirischen Untersuchungen wird 
die diagnostische Kompetenz der Lehrkräfte typischerweise über drei Kom- 
ponenten operationalisiert (Schrader, 1989): 


e Rangkomponente: Wie gut stimmt die Rangfolge gemäß der 
Lehrkrafteinschätzung mit der Rangfolge auf Basis der tatsächlich 
erbrachten Leistung überein? (Korrelation der Messwerte) 

e Niveaukomponente: Wie gut stimmen die mittlere Leistungsein- 
schätzung und die mittlere erbrachte Leistung über alle Kinder 
hinweg überein? (Differenz der Mittelwerte) 

e Differenzierungskomponenten: Wie gut stimmt die Streuung der 
Leistungseinschätzungen mit der Streuung der tatsächlich gezeig- 
ten Leistungen überein? (Quotient der Standardabweichungen) 


79 


Wenngleich die Komponenten der Urteilsakkuratheit und dabei insbesondere 
die Rangkomponente sehr häufig in der Forschungspraxis zum Einsatz kamen 
und kommen (vgl. Sidkamp et al., 2012), finden sich einige Einwände gegen 
die Annahme, die Akkuratheitskomponenten seien adäquate Maße für die 
diagnostische Kompetenz von Lehrkräften: So zeigen Forschungsbefunde, 
dass zwischen den Akkuratheitskomponenten keine hohen Zusammenhänge 
bestehen und zwar sowohl innerhalb eines Merkmals über die Komponenten 
hinweg als auch innerhalb einer Komponente über verschiedene Merkmale 
hinweg (Spinath, 2005). Ursächlich mag hier unter anderem sein, dass unter- 
schiedliche Beurteilungsstrategien unterschiedliche Konsequenzen für die 
Akkuratheitskomponenten haben. So führt beispielsweise die Orientierung 
an einer sozialen Bezugsnorm zu hohen Werten für die Rangkomponente, 
selbst wenn das durchschnittliche Niveau gänzlich falsch eingeschätzt wird. 
Weiter sind die Urteilsakkuratheitskomponenten nach Schrader (1989) hoch 
situationsspezifisch (vgl. Behrmann & Glogger-Frey, 2017). Es ist also denkbar, 
dass eine Lehrkraft in der einen Situation ein sehr akkurates Urteil fällen 
kann, im nächsten Moment aber nicht mehr, weil in diesem anderes und 
ggfs. nicht hinreichend vorhandenes Wissen erforderlich ist. Es lässt sich 
somit schlussfolgern, dass die Urteilsakkuratheit an sich nicht optimal ist, 
um Aussagen über die allgemeinen diagnostischen Kompetenzen von Lehr- 
kräften zu tätigen. 

Trotz dieser Schwierigkeiten hat der Einsatz der Urteilsakkuratheit in 
der Forschung auch zu relevanten Erkenntnissen geführt: So konnte bei- 
spielsweise gezeigt werden, dass Lehrkräfte die Fachleistungen ihrer Schü- 
ler*innen häufig leicht überschätzen (Niveaukomponenten; vgl. Urhahne 
& Wijnia, 2021), die Leistungsheterogenität jedoch recht adäquat einschät- 
zen können (Differenzierungskomponente; vgl. van Ophuysen, 2010). Die 
Fähigkeit von Lehrkräften, die Schulkinder nach ihren Leistungen zu ord- 
nen, liegt typischerweise im mittelhohen Bereich: Bei Hoge und Coladarci 
(1989) lag der Median der Rangkomponente bei r = .66, bei Südkamp et 
al. (2012) bei r = .53. Nach Cohen (1988) wären somit beide Korrelationen 
als hoch einzuordnen. Da aber Lehrkräfte die Eigenschaften ihrer Schü- 
ler*innen eigentlich sehr gut kennen sollten, werden die Werte von uns hier 
strenger interpretiert. Für motivational-affektive Schülermerkmale fällt die 
Korrelation zwischen Schüler-Selbsteinschätzung und Lehrkraftbeurteilung 
deutlich geringer aus. Urhahne und Wijnia (2021) berichten in ihrem syste- 
matischen Review beispielsweise von mittleren Korrelationen von r = .18 für 
Lernmotivation sowie r = .17 für negative und r = .31 für positive Emotio- 
nen. Eine mit den Leistungsmerkmalen vergleichbare mittlere Korrelation 
fanden sie für das Engagement (r = .51). Dies könnte darauf zurückzuführen 
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sein, dass dieses Merkmal enger gefasst und stärker an konkrete Verhaltens- 
weisen gekoppelt ist. 

Wenige Studien vergleichen die Urteilsakkuratheit von Lehrkräften 
verschiedener Schultypen, wobei es Lehrkräften an Grundschulen in der 
Regel etwas besser abschneiden. So beschreibt Karing (2009) einen direkten 
Vergleich der Rangkomponenten zwischen Grundschul- und Gymnasial- 
lehrkräften in den Leistungsfeldern Arithmetik, Wortschatz und Textver- 
stehen sowie im Fachinteresse an Mathematik und dem Fach Deutsch. Es 
zeigte sich hierbei, dass die Grundschullehrkräfte in vier der fünf Verglei- 
che signifikant akkuratere Werte aufwiesen. Lediglich beim Interesse für 
das Fach Mathematik zeigte sich der Unterschied nur numerisch, nicht aber 
statistisch signifikant. Weiter ergab sich in der Untersuchung ein positiver 
Zusammenhang zwischen der Urteilsgüte der Lehrkräfte und der Leistungs- 
heterogenität in der Klasse. Da die Leistungsheterogenität natürlich in der 
Grundschule auch größer als am Gymnasium sein sollte, lassen sich hie- 
rüber die Ergebnisse von Karings Studie gut erklären. In ähnlicher Weise 
konnten Harks und Hannover (2017) in Bezug auf ein nicht-leistungsbe- 
zogenes Merkmal zeigen, dass Grundschullehrkräfte die Sympathiebezie- 
hungen unter ihren Schüler*innen signifikant besser einschätzen konnten 
als Lehrkräfte an weiterführenden Schulen. Die Urteilsakkuratheit wurde 
dabei davon vorhergesagt, inwiefern sich die Lehrkräfte für die Qualität 
der Peerbeziehungen ihrer Schüler*innen verantwortlich fühlten und diese 
auch bewusst beobachteten. Dieser Befund konnte von Harks und Hannover 
darüber begründet werden, dass Grundschullehrkräfte deutlich mehr Zeit 
in einzelnen Klassen verbringen und somit ein besserer Überblick über die 
Sozialbeziehungen im Vergleich zu Lehrkräften weiterführender Schulen 
nicht überraschend sei. 
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In Studien, in denen die Urteilsakkuratheit erhoben wird, werden typi- 
scherweise nur relativ einfach und möglichst objektiv zu erfassende Schü- 
ler*innenmerkmale von den Lehrkräften eingeschätzt, da ansonsten die 
Akkuratheitskomponenten nicht berechenbar wären. Befasst man sich 
jedoch mit komplexeren pädagogischen Entscheidungen wie der Schulfor- 
mempfehlung, ist die Akkuratheit der Einschätzung spezifischer Eigen- 
schaften wie Fachleistung oder Sozialkompetenz sicher eine notwendige, 
nicht aber hinreichende Bedingung, um einer Lehrkraft eine hohe diagnos- 
tische Urteilsfahigkeit zu attestieren. Darüber hinaus können die Akku- 
ratheitskomponenten auch nicht unmittelbar auf die lehrkraftseitige Emp- 
fehlung angewendet werden, da es für diese - anders als beispielsweise die 
objektiven, standardisierten Testdaten bei Fachleistungen - keine Referenz- 
größe gibt, mit der die Lehrkrafteinschätzung abgeglichen und als „korrekt“ 
identifiziert werden kann (vgl. van Ophuysen, 2010). 

Gerade aber für solche konsequenzbehafteten Entscheidungen von Lehr- 
kräften wäre es wichtig, zu identifizieren, welche Urteile sich als adäquat 
erwiesen haben und welche eben nicht. Was aber, wenn das Ergebnis wie 
im eben skizzierten Fall nicht bewertet werden kann? In so einem Fall bleibt 
kaum eine andere Möglichkeit, als den der diagnostischen Entscheidung 
vorgelagerten Prozess ins Visier zu nehmen, damit eine Optimierung des 
finalen Urteils möglich wird. 


5. Das Vier-Komponenten-Modell der Diagnosequalitat 


Kernannahme des Vier-Komponenten-Modells (Behrmann & van Ophuy- 
sen, 2017, S. 39) ist, dass ein „gutes“ Urteil mit hoher Wahrscheinlichkeit 
dann resultiert, wenn es auf verlässlichen Daten basiert, die in angemessener 
Weise (kognitiv) verarbeitet werden. Eine hohe Datenqualität ihrerseits setzt 
bestimmte Qualitätsmerkmale des diagnostischen Handelns voraus. Aus die- 
ser Logik heraus kann die Diagnosequalität auch dann ermittelt werden, wenn 
beispielsweise kein objektives Kriterium vorliegt, um die Urteilsakkuratheit 
zu bestimmen. Das Vier-Komponenten-Modell beschreibt entsprechend 
neben der Urteilsqualität zwei Prozess- und zwei Ergebniskomponenten, an 
denen sich während der Diagnostik orientiert werden sollte. 
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Abbildung 1: Das Vier-Komponenten-Modell der Diagnosequalität 


Informationserfassung 
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* Transparenz 
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Quelle: in Anlehnung an Lintorf et al. (2016) 


Auch im Vier-Komponenten-Modell ist Akkuratheit ein wesentliches Krite- 
rium dafür, dass eine adäquate Diagnostik erfolgt ist. Darüber hinaus wird 
aber ebenfalls darauf Wert gelegt, dass ein gutes pädagogisches Urteil von 
Lehrkräften fair sein muss. Fairness liegt dann vor, wenn für alle Kinder ein 
identischer Beurteilungsmaßstab angelegt wird.’ Dass eine Einschätzung 
von den beurteilten Kindern als fair erlebt wird, setzt weiter voraus, dass sie 
den Urteilsprozess nachvollziehen können. Dies wird durch Transparenz 
des Urteils erreicht, die dann vorliegt, wenn eine Lehrkraft grundsätzlich 
die Kriterien für eine Entscheidung offenlegt und somit für jedes Kind (und 
seine Eltern) verständlich begründen kann, wie sie zu den einzelnen Urteilen 
gekommen ist. 

Die zweite Ergebniskomponente bezieht sich auf die Daten und Infor- 
mationen. Diese müssen in hoher Qualität vorliegen, damit ein adäquates 
diagnostisches Urteil überhaupt erst möglich wird. Aus diesem Grund ist es 
im Vier-Komponenten-Modell wichtig, dass je nach Bedeutsamkeit der aus 
der Diagnose resultierenden Entscheidung (z.B. Übergangsentscheidung vs. 
Auswahl Arbeitsblatt) bei der Datenerhebung die drei Hauptgütekriterien 
der klassischen Testtheorie Reliabilität, Validität und Objektivität in ange- 
messener Weise berücksichtigt werden. Insbesondere in diagnostischen Situ- 
ationen, in denen das einzuschätzende Schüler*innenmerkmal nicht direkt 
durch objektive Erhebungsverfahren erfasst werden kann und in Situatio- 
nen, in denen vielfältige Merkmale oder unterschiedliche situationale Kon- 


1 Dies kann auch bedeuten, dass für jedes Kind eine individuelle Bezugsnorm angelegt wird. 
Zur Differenzierung unterschiedlicher Formen von Gerechtigkeit siehe z.B. van Ophuysen 
et al. (2015); Falkenberg (2020). 
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texte zu berücksichtigen sind, ist es sinnvoll, die Ansichten anderer Personen 
(z.B. Lehrkräfte, pädagogische Fachkräfte, Eltern oder die Schüler*innen 
selbst) in das Urteil einfließen zu lassen (Multiperspektivität). Schließlich 
ist es wichtig, dass die Daten längerfristig verfügbar sind, damit sie auch für 
zeitlich nachgeordnete Entscheidungen unverzerrt genutzt werden können. 
Doch selbst multiperspektivische, unverzerrt verfügbare Informationen, die 
mithilfe reliabler, objektiver und valider Methoden erfasst wurden, sind für 
die Diagnose nur dann hilfreich, wenn sie für die zu treffende pädagogische 
Entscheidung relevant sind. 

Damit Informationen und Daten für die Urteilsbildung schlussendlich 
eine hohe Qualität aufweisen, muss das diagnostische Handeln bestimmten 
Qualitätskriterien genügen. Aus diesem Grund beschreibt die erste Prozess- 
komponente, worauf bei der Informationserfassung geachtet werden sollte: 
Damit beispielsweise nur für das Urteil relevante Daten generiert werden, 
muss Diagnostik grundsätzlich zielorientiert erfolgen. Darüber hinaus muss 
pädagogische Diagnostik praktikabel sein: Lehrkräfte werden diese erst 
dann regelmäßig adäquat umsetzen, wenn es gelingt, sie systematisch in den 
Unterricht zu implementieren. Damit das möglich ist, müssen je nach diag- 
nostischer Situation und unter Berücksichtigung des jeweiligen Anspruchs 
an die Gütekriterien die passenden Methoden für die Datengenerierung aus- 
gewählt und umgesetzt werden (Methodenvielfalt). Um Informationen voll- 
ständig und aus unterschiedlichen Sichtweisen erfassen zu können, ist eine 
(multiprofessionelle) Kooperation mit anderen Pädagog*innen, aber ggf. 
auch eine gelingende und vertrauensvolle Elternarbeit hilfreich. Zu guter 
Letzt stellt erst eine sorgfältige Dokumentation der gewonnenen Befunde 
sicher, dass die Informationen auch zukünftig nachvollziehbar bleiben und 
in zeitlich nachgeordnete Entscheidungen einfließen können. 

Ein überlegtes diagnostisches Handeln und die daraus resultierenden 
hochwertigen Informationen sind notwendige, aber nicht hinreichende 
Bedingungen für ein akkurates Urteil. Um schlussendlich zu diesem zu 
gelangen, müssen auch hochwertige Daten sorgfältig verarbeitet und inter- 
pretiert werden. Aus diesem Grund bezieht sich die zweite Prozesskom- 
ponente auf die Informationsverarbeitung. Diese beschreibt verschiedene 
Eigenschaften kognitiver Aktivität, die das Risiko systematischer Fehlent- 
scheidungen reduzieren. So ist es beispielsweise wichtig, je nach Bedarf ver- 
schiedene Informationen flexibel aus verschiedenen Quellen zu extrahie- 
ren und zu aggregieren. Wenn die Datenerhebung sorgfältig durchgeführt 
wurde, müssen auch unerwartete empirische Befunde akzeptiert werden, 
selbst wenn sie vorab bestehenden Überzeugungen der Lehrkraft widerspre- 
chen (Revidierbarkeit). Weiter sollte den urteilenden Lehrkräften bewusst 
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sein, dass auch sie leicht Urteilsfehlern wie dem Halo-Effekt oder dem 
fundamentalen Attributionsfehler unterliegen könnten, sodass hierauf ein 
besonderes Augenmerk bei der Urteilsbildung gelegt werden sollte (Unver- 
zerrtheit, vgl. van Ophuysen & Lintorf, 2013). Schlussendlich ist es bei allem 
betriebenen Aufwand für eine möglichst objektive Diagnostik wichtig, auch 
alle anderen Anforderungen des alltäglichen Unterrichts zu berücksichti- 
gen. Es ist somit elementar, ressourcenschonend zu agieren und Komplexität 
und Aufwand der Diagnostik an die jeweilige Situation und ihre Relevanz 
für das jeweilige Schulkind anzupassen. 

Wird bei der diagnostischen Urteilsfindung auf die Subkomponenten 
des Vier-Komponenten-Modells geachtet, ist davon auszugehen, dass sich 
sowohl die Qualität des diagnostischen Prozesses als auch die des Gesamt- 
urteils verbessern. Auf diese Weise ist es selbst bei so komplexen Entschei- 
dungen wie der Schulformempfehlung oder der Abwägung auf den Verbleib 
in der Klasse möglich, zu einem akkuraten und transparenten, fairen Urteil 
zu gelangen. 


6. Fragestellung 


Im Rahmen der Forschung zur Formation der Übergangsempfehlung am 
Ende der Grundschulzeit standen bislang die Ergebnisqualität (erfasst z.B. 
über den Schulformverbleib, s. van Ophuysen, 2006), die Kriterien der Uber- 
gangsempfehlung (Glock et al., 2013; Lintorf & van Ophuysen, 2022) und 
der Prozess der Informationsverarbeitung (Krolak-Schwerdt et al., 2018) im 
Fokus. Hingegen sind uns keine Studien bekannt, die untersuchen, wie das 
diagnostische Handeln im Kontext der Übergangsempfehlung ausgestaltet ist. 
Untersuchungen zur pädagogischen Diagnostik im Zusammenhang mit der 
Verbleibsentscheidung am Ende der Erprobungsstufe liegen unseres Wissens 
gar nicht vor. 

Unter Rückgriff auf die Prozessmerkmale des Vier-Komponenten-Mo- 
dells analysieren wir in unserer empirischen Studie die (F1) Einschätzung 
des diagnostischen Prozesses aus Sicht der Lehrkräfte. Dazu fragen wir im 
Einzelnen: 


e Als wie wichtig erachten Lehrkräfte die Aspekte prozessbezogener 
Diagnosequalität? 

e Welche Aspekte finden Eingang in ihr diagnostisches Handeln? 

e Als wie gut bewerten die LK ihr diagnostisches Handeln? 
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Darüber hinaus analysieren wir (F2) den Zusammenhang zwischen der ein- 
geschätzten Wichtigkeit des diagnostischen Handelns, dem diagnostischen 
Handeln selbst und der wahrgenommen Diagnosequalität. Schließlich über- 
prüfen wir, (F3) ob es Unterschiede zwischen den Einschätzungen der Lehr- 
kräfte in Abhängigkeit der Schulstufe (Grundschule vs. Gymnasium) - bzw. 
des damit einhergehenden diagnostischen Anlasses - gibt. 


7. Methode 
7.1. Durchführung 


Im Rahmen der zweiten Phase des Projektes GanzIn? (2015-2019) arbeite- 
ten in drei stufenübergreifenden Schulnetzwerken Lehrkräfte aus je einem 
Ganztagsgymnasium und mehreren umliegenden Grundschulen zum Thema 
Übergang Grundschule - Gymnasium zusammen. Die Lehrkräfte dieser sowie 
drei weiterer Ganztagsgymnasien, die zu einemanderen Themenschwerpunkt 
arbeiteten, nahmen im Herbst 2016 an einer schriftlichen, standardisierten 
Lehrkräfte-Befragung teil, die online durchgeführt wurde. Den Link zur 
Befragung erhielten sie von ihrer Schulleitung. Die Teilnahme war für die 
Lehrkräfte freiwillig. 


7.2. Stichprobe 


Der Fragebogen wurde von 89 Lehrkräften aus Grundschulen und 255 Lehr- 
kräften aus Ganztagsgymnasien beantwortet. 16 Grundschul- und 53 Gym- 
nasiallehrkräfte wurden von weiteren Analysen ausgeschlossen, da sie mehr 
als fünf der im Fokus stehenden 23 Items nicht beantwortet hatten. Die Ana- 
lysestichprobe umfasst somit 73 Lehrkräfte aus zwölf Grundschulen und 202 
Lehrkräfte aus sechs Gymnasien mit (fast) vollständigen Angaben. 

Der Frauenanteil unterscheidet sich sehr deutlich zwischen den beiden 
Schulformen. Während an der Grundschule 93,2% (68 von 73) der Befrag- 
ten Frauen sind, liegt der Anteil an den Gymnasien mit 62,9 % (127 von 
292) deutlich darunter. Dies deckt sich in etwa mit den Quoten in NRW im 
Schuljahr 2022/21 (Frauenanteil: Grundschule: 90,1 %, Gymnasium 60,9 %) 
(Landesbetrieb IT.NRW. Statistik und IT-Dienstleistung, 2021). 

35,3% (97 von 275) der Befragten sind zwischen 31 und 40 Jahren. Diese 
Altersgruppe bildet die Medianklasse. Die Berufserfahrung der Befragten 


2 http://www.ganzin.de/phasezwei/willkommen-2/index.html. 
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weist eine breite Streuung auf. Während 4,7 % der Befragten noch im Refe- 
rendariat sind, sind 8,4 % bereits seit mehr als 30 Jahren als Lehrkraft tätig. 
Die Medianklasse entspricht dabei der Gruppe derjenigen, die zwischen 
6 und 10 Jahren im Schuldienst tätig sind. Die teilnehmenden Lehrkräfte 
von den Grundschulen sind im Schnitt etwas länger im Schuldienst tätig 
mit einer deutlichen Häufung von 41,1 % in der Gruppe mit 11-20 Jahren 
Berufserfahrung. 


7.3. Instrument 


Der Online-Fragebogen erfasst neben wenigen Informationen zur Person 
und zur Beratungskompetenz insbesondere auch die hier im Fokus stehenden 
Items zur pädagogischen Diagnostik im Kontext schulischer Übergänge. Bei 
der Beantwortung der entsprechenden Items wurden die Grundschullehr- 
kräfte gebeten, sich auf den diagnostischen Prozess in Vorbereitung auf die 
Erteilung der Übergangsempfehlung zu beziehen. Lehrkräfte an Gymnasien 
sollten die Items mit Blick auf die Entscheidung über den Schulformverbleib 
am Ende der Erprobungsstufe beantworten. 

Wichtigkeit diagnostischer Qualitätsmerkmale. Für sieben verschiedene 
Qualitätsmerkmale, die aus dem Vierkomponentenmodell abgeleitet wur- 
den (vgl. Tabelle 1), gaben die Lehrkräfte jeweils auf einer vierstufigen Skala 
an, für wie bedeutsam sie diese Merkmale „für die Erteilung einer guten 
Empfehlung“ erachten (1 = gar nicht wichtig, 4 = sehr wichtig). Dabei wurde 
nicht weiter ausgeführt, wodurch sich eine „gute Empfehlung“ auszeichnet. 
Scree-Test und Kaiserkriterium sprechen für eine einfaktorielle Lösung, die 
eine Varianzaufklärung von 44% ermöglicht. Mit der Eindimensionalität 
korrespondieren ebenfalls die eher hohen Trennschärfen, die zwischen .428 
und .626 liegen, sowie die gute interne Konsistenz der resultierenden Skala 
(Cronbachs Alpha = .781). 

Diagnostisches Handeln. Für die sieben Qualitätsmerkmale, die hin- 
sichtlich ihrer Wichtigkeit beurteilt wurden (vgl. Tabelle 1), gaben die Lehr- 
kräfte ebenfalls auf einer vierstufigen Skala an, inwiefern sie diese in ihrem 
eigenen diagnostischen Handeln berücksichtigen (1 = stimmt gar nicht, 
4 = stimmt genau). Der Scree-Test spricht ebenfalls für eine einfaktorielle 
Lösung. Wenngleich der Eigenwert der zweiten Komponente minimal über 
1 liegt, erscheint die einfaktorielle Lösung, die eine Varianzaufklärung von 
43% erlaubt, aus inhaltlichen Gründen sinnvoll. Trennschärfen zwischen 
.408 und .598 sowie Cronbachs Alpha = .773 sprechen für die interne Kon- 
sistenz der Skala. 
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Tabelle 1: Ergebnisse von Faktoren- und Reliabilitätsanalyse für die Skalen Wichtigkeit 
diagnostischer Qualitätsmerkmale und Diagnostisches Handeln. 


Wichtigkeit diagnostischer 


Qualitätsmerkmale Diagnostisches Handeln 


Ladung Trennschärfe Ladung Trennschärfe 
BedEUtSame diagnostische 710 556 687 539 
Kriterien identifizieren 
Konkrete Situationen fur 624 ATG 667 518 
Diagnose einplanen 
Vielfaltige Methoden 567 431 559 414 
nutzen 
Einschätzung anderer 683 535 569 408 
Personen erfragen 
Informationen langfristig 574 428 663 515 
verfügbar halten 
Richtigkeit der Einschätzung 775 626 754 598 
immer wieder hinterfragen 
Uber Einfluss persönlicher Vor- 699 524 673 494 


eingenommenheit nachdenken 


Erklärte Varianz: Cronbachs Alpha: Erklärte Varianz: Cronbachs Alpha: 
.443 181 431 .773 


Wahrgenommene Diagnosequalität. Die Lehrkräfte schätzten anhand von 
fünf Merkmalen die Qualität ihrer diagnostischen Einschätzungen ein 
(1 = gelingt mir gar nicht gut, 4 = gelingt mir sehr gut; vgl. Tabelle 2). Scree- 
Test und Kaiserkriterium sprechen für eine einfaktorielle Lösung, die eine 
Varianzaufklärung von 57% ermöglicht. Die Annahme der Eindimensio- 
nalität wird auch durch die Trennschärfen unterstützt, die zwischen .557 
und .703 liegen, sowie durch die interne Konsistenz der resultierenden Skala 
(Cronbachs Alpha = .812). 


Tabelle 2: Ergebnisse von Faktoren- und Reliabilitätsanalyse für die Skala 
Wahrgenommene Diagnosequalitat. 


Ladung Trennscharfe 
Objektive und unvoreingenommene Einschatzung 122 -557 
Transparente Begründung der Einschätzung .133 .574 
Präzise und genaue Einschätzung 128 .569 
Faire und gerechte Einschätzung .837 103 
Ermöglichung bestmöglicher Potentialentfaltung 157 .602 


Erklärte Varianz: .572 Cronbachs Alpha: .812 


8. Ergebnisse 
8.1. Einschätzungen der Lehrkräfte 
Insgesamt nehmen die Lehrkräfte im Mittel eine recht hohe Wichtigkeit der 


diagnostischen Qualitätsmerkmale wahr (med = 3.43; mean = 3.44; sd = 0.401). 
Nur zwei Lehrkräfte geben einen Wert unterhalb des theoretischen Skalen- 
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mittels an. Die Werte für diagnostisches Handeln liegen ebenfalls im oberen 
Skalenbereich (med = 3.29; mean = 3.26; sd = 0.431). Die Werte von sieben 
der 275 Lehrkräften liegen unterhalb des theoretischen Skalenmittels. Die 
eigene Diagnosequalität bewerten 110 Lehrkräfte im Mittel mit dem Wert 
von 3,00. Nur bei drei Personen liegt der Wert unterhalb des theoretischen 
Skalenmittels. Die Selbsteinschätzungen fallen insgesamt recht homogen aus 
(med = 3.00; mean = 3.21; sd = 0.369). Die Informationen sind in Abbildung 
2 zusammengefasst. 


Abbildung 2: Box-Plot für Skalenwerte 
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o o 
1 : : 
Wichtigkeit diagnostischer Diagnostisches Wahrgenommene 
Qualitätsmerkmale Handeln Diagnosequalitat 


8.2. Zusammenhangsanalyse 


Alle drei Skalenwerte korrelieren signifikant miteinander. Wichtigkeit 
und Handeln weisen einen starken positiven linearen Zusammenhang auf 
(r = .687; p < .001). Je wichtiger die ausgewählten Qualitätsmerkmale des 
diagnostischen Handelns wahrgenommen werden, desto eher berichten die 
Lehrkräfte, dass sie die entsprechenden Handlungsweisen praktizieren. Eine 
mittlere positive Korrelation ergibt sich für Handeln und Diagnosequalität 
(r = .407; p < .001). Je stärker die Lehrkräfte zustimmen, verschiedene diagnos- 
tische Handlungsweisen zu praktizieren, desto positiver bewerten sie in der 
Tendenz auch ihre Urteilsqualität. Schließlich geht mit hoher eingeschätzten 
Wichtigkeit der Diagnosemerkmale und auch eine positive Selbsteinschätzung 
der Diagnosequalität einher (r = .318; p < .001). 
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8.3. Unterschiede zwischen Schulstufen 


Die schulformspezifischen Mittelwerte für die beiden Skalen Wichtigkeit 
diagnostischer Qualitätsmerkmale und wahrgenommene Diagnosequalität 
unterscheiden sich nicht bedeutsam (siehe Tabelle 3). Einen eher schwachen 
aber signifikanten Schulformeffekt gibt es hingegen für das diagnostische 
Handeln (t,,, = 2.965; p = .003; d = 0.405). Lehrkräfte an Grundschulen äußern 
hier höhere Zustimmung (mean = 3.38; sd = 0.404) als ihre Kolleg*innen an 
den Gymnasien (mean = 3.21; sd = 0.433). Ein Blick in die itemweisen Mit- 
telwerte je Schulform verdeutlicht, dass für vier der sieben Items der Unter- 
schied nach der Konvention von Cohen (1988) als schwacher Schulformeffekt 
bewertet werden kann. Keine Schulformunterschiede zeigen sich hinsichtlich 
der Dokumentation diagnostischer Informationen, dem kritischen Hinter- 
fragen der eigenen Einschätzung und der Reflexion hinsichtlich möglicher 
Voreingenommenheit. Grundschullehrkräfte geben hingegen eher als Gym- 
nasiallehrkräfte an, dass sie im Vorfeld überlegen, welche Informationen 
für die Empfehlung bedeutsam sind, dass sie planen, in welchen konkreten 
Situationen sie die relevanten Informationen erfassen wollen, dass sie vielfäl- 
tige Methoden der Informationserfassung nutzen und dass sie auch andere 
Personen nach ihrer Einschätzung der Schüler*innen fragen. 


Tabelle 3: Mittelwertvergleiche für Skalen und Einzelitems 


mean sd t df p d 
a esws a nn 0.853 273 294 6446 
: Wahrgenommene Diagnosequalitat GSWS ee ress 0.620 270 -536 0.085 
Diagnostisches Handeln GSWS En nn 2.965 273 .003 0.405 
co. diagnostische Kriterien ws a. nn 2.760 267 .006 0.380 
en für Diagnose GSWS os nn 5596 86 605 aoe 
2 Vielfältige Methoden nutzen GSWS co 3.596 272 <.001 0.491 
Š nn GSWS 366 OS 2779 273 .006 0.380 
< 
im a ei Gsws . 1.325 272 186 9181 
tms as 3 GER sce ara ae ato 
manner as 320 GEST as ara soo as 


Signifikante Mittelwertunterschiede sind fett markiert 
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9. Diskussion 


In beiden Schulstufen werden die abgefragten Aspekte der Ergebnisqualität als 
sehr wichtig eingeschätzt. Auch die selbsteingeschätzte Qualität des eigenen 
diagnostischen Handelns ist in beiden Schulstufen in vergleichbarer Höhe 
ausgeprägt. Deutliche Schulformunterschiede zeigen sich hingegen bei der 
Umsetzung verschiedener Facetten des diagnostischen Handelns. Auf Ebene 
der einzelnen Items ist der deutlichste Unterschied bei der Methodenvielfalt 
zu sehen. Lehrkräfte an Grundschulen stimmten der Aussage, sie nutzten zur 
Erfassung der empfehlungsrelevanten Informationen vielfältige Methoden, 
stärker zu als ihre Kolleg*innen an den Gymnasien. Auch die Einbindung 
verschiedener Informant*innen scheint für Grundschullehrkräfte ein Vor- 
gehen zu sein, das sie häufiger als die Lehrkräfte an den Gymnasien nutzen. 
Gleiches gilt für die gezielte Planung des diagnostischen Vorgehens und die 
bewusste Entscheidung über die für die Empfehlung relevanten Informatio- 
nen. Wenngleich die Qualität der eigenen Diagnose an beiden Schulformen 
ähnlich hoch eingeschätzt wird, ist davon auszugehen, dass das engagiertere 
diagnostische Handeln an den Grundschulen zu besserer Datenqualität und 
reflektierterer Informationsverarbeitung führt, woraus letztlich mit höherer 
Wahrscheinlichkeit qualitativ hochwertigere Diagnosen (im konkreten Fall 
passendere Empfehlungen) resultieren sollten. 

Der Einsatz vielfältiger Methoden ist zwar kein Selbstzweck, aber unter- 
schiedliche Methoden ermöglichen die flexible Erfassung von Merkmalen. 
Trifft eine Lehrkraft beispielsweise ihre Empfehlung allein auf Basis von 
selbst entwickelten, schriftlichen Leistungstests, bleiben anwendungsnahe 
Kompetenzen (z.B. das Durchführen von Experimenten) unberücksichtigt 
und das Bild der Schülerin/des Schülers bleibt unvollständig. Ebenfalls kann 
durch die Einbindung von Informationen anderer Personen (z. B. Kolleg*in- 
nen, Mitschüler*innen, Eltern oder weiterem pädagogisches Personal) das 
Gesamtbild des Kindes vervollständigt werden - gerade bei komplexen dia- 
gnostischen Entscheidungen wie einer Übergangsempfehlung. Im Vergleich 
zu Grundschullehrkräften handeln Lehrkräfte an weiterführenden Schu- 
len - laut Selbstauskunft - weniger mehrperspektivisch. Dies ist plausibel, 
weil sie primär aufihr Fach und somit auch eher auf die spezifischen Leistun- 
gen in diesem fokussiert sein dürften. Umso wichtiger wäre es, dass zumin- 
dest Klassenlehrkräfte an weiterführenden Schulen sich für den Erhalt eines 
guten Überblicks über die Kinder bemühen, die Informationen von allen 
in der Klasse unterrichtenden Lehrkräften zusammentragen. Ob eventuell 
Klassenlehrkräfte (im Vergleich zu reinen Fachlehrkräften) verstärkt diesen 
mehrperspektivischen Ansatz in der Praxis umsetzen, ist in dieser Untersu- 
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chung leider nicht nachzuprüfen, da bei der Datenerhebung nicht zwischen 
Fach- und Klassenlehrkraft unterschieden wurde. Diesbezüglich wäre eine 
differenziertere Erfassung in zukünftigen Untersuchungen wünschenswert. 
Es lässt sich aber zumindest konstatieren, dass Lehrkräfte an den weiterfüh- 
renden Schulen insgesamt die Merkmale des diagnostischen Handelns als 
ebenso wichtig ansehen wie die Grundschullehrkräfte. 

Die befragten Lehrkräfte an Grundschulen stimmten stärker der Aus- 
sage zu, dass sie sich im Vorfeld genau überlegen, welche Information für 
die zu treffende Empfehlung überhaupt bedeutsam sind. Eventuell liegt die- 
ser Unterschied darin begründet, dass die Übergangsempfehlung am Ende 
der Grundschulzeit ein kontrovers diskutiertes Thema in Wissenschaft und 
Gesellschaft darstellt. Dahingegen wird die Frage nach dem Schulformwech- 
sel vs. -verbleib am Ende der Erprobungsstufe kaum öffentlich diskutiert. 
Allenfalls wird vereinzelt auf die Problematik verwiesen, dass eine Durch- 
lässigkeit verstärkt „nach unten“ besteht, während Schulform-Aufstiege 
wesentlich seltener zu verzeichnen sind (z.B. Bellenberg, 2012). Gerade die 
(fehlende) Debatte um mögliche soziale Selektivität an dieser nachgeordne- 
ten Gelenkstelle der Bildungsbiografie könnte dazu beitragen, dass auch der 
Frage, welche Merkmale überhaupt empfehlungsrelevant sein sollten, bei 
den Gymnasiallehrkräften weniger Aufmerksamkeit zuteilwird. 

Es lässt sich zusammenfassen, dass die Ergebnisse der Studie insge- 
samt einen eher positiven Eindruck der Lehrkräfte und ihrer Einstellun- 
gen und Handlungen zur Diagnostik zeichnen. Selbst bei den Lehrkräften 
der weiterführenden Schulen lagen die Mittelwerte aller Items - zum Teil 
deutlich - über dem theoretischen Mittel. Genauer gaben Lehrkräfte bei- 
der untersuchten Schulformen an, dass für sie die gute Dokumentation von 
Informationen, kritisches Nachdenken und die Selbstreflexion hinsichtlich 
der Informationsverarbeitung wichtige und im Alltag umgesetzte diagnos- 
tische Handlungsweisen darstellen. Damit ist eine wichtige Voraussetzung 
erfüllt, um systematisch verzerrte Urteile zu vermeiden. 

Allerdings ist zu berücksichtigen, dass es sich bei den Daten in dieser Stu- 
die um Selbstauskünfte der Lehrkräfte handelt. Sozial erwünschte Antwort- 
tendenzen sind somit zumindest denkbar. Weiter ist es möglich, dass die 
Ergebnisse durch die Eigenschaften der Stichprobe besonders positiv aus- 
gefallen sind: Viele der befragten Lehrkräfte (insbesondere aus der Grund- 
schule) waren im Rahmen des GanzIn-Projektes aktiv in Schulnetzwerke 
eingebunden. Dort haben sie sich mit der Übergangsgestaltung sowie mit der 
Beratung und der Diagnostik im Grundschulübergang beschäftigt. Wenn- 
gleich gerade an den Gymnasien auch Lehrkräfte teilgenommen haben, die 
nicht unmittelbar in die Netzwerkarbeit eingebunden waren, muss bei ihnen 
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mit möglichen Transfereffekten gerechnet werden, da die Erkenntnisse der 
Netzwerkarbeit jeweils im gesamten Kollegium vermittelt werden sollten. 
Eine verstärkte Hinwendung der Lehrkräfte zu diesem Thema ist bei der 
Beantwortung der Fragen damit aufgrund der selektiven Stichprobe erwart- 
bar. 

Für zukünftige Untersuchungen wäre es somit wünschenswert, wenn die 
Stichprobe heterogener aufgestellt und somit repräsentativer wäre. Weiterhin 
wurden die Daten in dieser Arbeit nur über einen Selbstauskunfts-Fragebo- 
gen erhoben. In Folgeuntersuchungen sollten verschiedene Erhebungsver- 
fahren (Beobachtung, Dokumentenanalyse, Interviews) eingesetzt werden. 
Auf diese Weise könnte dann überprüft werden, ob die Lehrkräfte im Unter- 
richt auch tatsächlich so handeln, wie sie es in dieser Studie berichtet haben 
und ob bzw. wie sich dies auf die Qualität der tatsächlichen Urteile auswirkt. 
Ist die Erfassung der Urteilsqualität wie beim Grundschulübergang oder der 
Versetzungsentscheidung nicht möglich, wäre zumindest die Überprüfung 
möglich, ob der Urteilsprozess transparent und fair abgelaufen ist. 

Mit unserem Beitrag fokussieren wir das diagnostische Handeln von 
Lehrkräften im Kontext der Empfehlungen am Ende von Klasse 4 bzw. 6 und 
setzen damit an einer bedeutsamen Forschungslücke an. Studien zur Prozes- 
squalität sind in der gesamten Forschung zur pädagogischen Diagnostik rar. 
Mit den oben genannten weiteren Zugängen erscheint uns die Beleuchtung 
des diagnostischen Handelns auch in Zukunft ein lohnendes Forschungs- 
feld, da insbesondere das Handeln im Bereich der Informationserfassung die 
handlungsnahen und somit instruier- und veränderbaren Teile des diagnos- 
tischen Prozesses abdeckt, die im Rahmen der Lehrkräfteausbildung und in 
Fort- und Weiterbildungen adressiert werden können. 
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Students’ Use of (Online) Self- 
Assessments in Math: Interindividual 
Differences in Students’ Test 
Engagement and Test Performance 
in Math-Intensive Study Programs 


Fani Lauermann, Daria K. Benden, Jeffrey M. DeVries & 
Johanna Heitzer‘ 


Abstract 


Students’ math abilities and skills are critical for their academic success 
in math-intensive study programs. Thus, intervention efforts to increase 
students’ participation and retention in math-intensive fields often target 
their math knowledge and skills, for instance, via diagnostic self-tests and 
tailored instruction. However, students’ quality of engagement in these 
self-tests and interventions is an important prerequisite for their effec- 
tiveness. Using data from the Test-M project, which was conducted with 
beginning postsecondary students enrolled in math-intensive study pro- 
grams (N = 3,213; 33% female), this study examined students’ level of test 
engagement while using a comprehensive and freely available digital math 
self-test provided by the NRW state ministry of culture and science. This 
digital tool assesses students’ level of math proficiency, identifies areas in 
need of improvement, and provides information about relevant skill train- 
ing opportunities. We find interindividual differences in students’ level of 
test engagement in terms of their subjective evaluations of the tested math 
content (e.g., motivation while working on the math problems), as well as 
test persistence (e.g., the proportion of seen but unanswered questions) 
and performance. These differences favored male and higher-achieving 


1 


The project Test-M is funded by the Ministry of Culture and Science of the State of North 
Rhine Westphalia with two grants awarded to the first author (Test-M-I, 214-5.01.03.02.- 
149400) and the last author (Test-M-II). The sole responsibility for the content of this 
publication lies with the authors. 


97 


students, students who were native speakers of German, those who par- 
ticipated in self-testing in-person rather than online, and those with more 
positive math achievement and math-related motivations before self-test- 
ing. Such students were most likely to engage with the self-test and thus 
potentially benefit from this type of intervention. Higher test engagement 
was linked to higher test performance, underscoring the importance of 
test-taking motivation for the utility of self-testing. 


Keywords: online self-assessments; self-testing; test engagement; test moti- 
vation; STEM; study success; expectancy; values 


Zusammenfassung 


Die Mathematikkenntnisse der Studierenden sind entscheidend für ihren 
Erfolg in mathematikintensiven Studiengängen. Daher zielen Interven- 
tionsmaßnahmen zur Erhöhung der Teilnahme und des Verbleibs von 
Studierenden in mathematikintensiven Fächern häufig auf ihre Mathe- 
matikkenntnisse ab, z.B. durch solche Unterstützungsangebote wie dia- 
gnostische Selbsttests und passgenaue Lerneinheiten. Die Qualität der 
Nutzung solcher Angebote ist jedoch eine wichtige Voraussetzung für 
deren Wirksamkeit. Anhand von Daten von Studienanfänger*innen in 
mathematikintensiven Studiengängen (N = 3,213; 33% weiblich) aus dem 
Test-M-Projekt untersucht diese Studie die Qualität der Testbearbeitung 
bei der Bearbeitung eines umfassenden digitalen und frei verfügbaren 
Mathematik-Selbsttests, der vom NRW-Landesministerium für Kultur und 
Wissenschaft zur Verfügung gestellt wurde. Dieses digitale Instrument 
erfasst die Mathematikkenntnisse der Testteilnehmenden, identifiziert 
Unterstützungsbedarfe und informiert über passgenaue Lernangebote. 
Unsere Analysen dokumentieren interindividuelle Unterschiede in der 
Qualität der Testbearbeitung im Hinblick auf die subjektiven Einschät- 
zungen der getesteten Inhalte (z.B. Motivation während der Bearbeitung 
der Testaufgaben) sowie die Testausdauer (z.B. Anteil der gesehenen, aber 
nicht beantworteten Aufgaben) und Leistung. Diese Unterschiede fallen 
zugunsten von männlichen und leistungsstärkeren Studierenden, Studie- 
renden mit deutscher Muttersprache, Studierenden, die in Präsenz statt 
online teilgenommen haben, und Studierenden mit vergleichsweise posi- 
tiveren Mathematikleistungen und motivationalen Einstellungen vor dem 
Selbsttest aus. Studierende mit solchen Merkmalen lassen sich am ehesten 
auf diese Art von Selbsttest-Intervention ein und können somit auch am 
ehesten davon profitieren. Eine höhere Testmotivation war mit einer bes- 
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seren Testleistung verbunden, was die Bedeutung der Testmotivation für 
den Nutzen von Selbsttests unterstreicht. 


Schlagworte: Online self-assessments; Self-testing; Test engagement; Test 
motivation; STEM; Study success; Expectancy; Values 


1. Introduction 


Students’ math ability and skills are essential for their academic success in 
math-intensive study programs in science, technology, engineering, mathe- 
matics, and other related fields (STEM; Cromley et al., 2016; Heublein et al., 
2022; Pozo & Stull, 2006; Rach & Heinze, 2017). Accordingly, intervention 
efforts to increase students’ participation and retention in math-intensive 
educationaland occupational fields often target their math skills, for instance, 
via diagnostic self-tests and tailored online or in-person skill training inter- 
ventions (Cukußi£ et al., 2014; Schwerter et al., 2022; Tieben, 2019). However, 
as we elaborate in greater detail subsequently, students’ quantity and qual- 
ity of engagement in these self-tests and related instructional supports (e.g., 
e-learning units) is a key prerequisite for their effectiveness in supporting 
students’ academic success (e.g., Schwerter et al., 2022; Thomas et al., 2017). 
Accordingly, it is important to explore interindividual differences in students’ 
use and quality of engagement in these types of interventions. Of primary 
interest for the present study are interindividual differences in students’ use 
of (online) self-assessments in the math domain (i.e., self-tests that allow 
students to assess their math knowledge and review math prerequisites that 
are relevant for math-intensive study programs in higher education). A key 
objective of this research is to identify characteristics of students enrolled in 
STEM fields who are most likely to engage with self-testing of math knowledge 
and thus potentially benefit from this type of intervention. 


1.1. Math Self-Assessments as a Type of Educational Intervention in 
STEM 


Many students enrolled in STEM fields and other math-intensive domains 
such as economics face severe achievement-related difficulties at the begin- 
ning of their studies, experience significant motivational declines during the 
very first weeks of postsecondary education, report high levels of challenge, 
especially in gateway math courses, and ultimately face relatively high levels of 
course dropout (over 50% in some fields; Benden & Lauermann, 2022; Chen, 
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2013; Cromley et al., 2016; Heublein et al., 2022). Math self-assessments have 
emerged as a valuable educational resource that can support students’ aca- 
demic success in math-intensive fields, for instance, by providing diagnostic 
feedback, opportunities to practice math content, and as an information and 
screening instrument (Chevalier et al., 2018; Pozo & Stull, 2006; Schwerter 
et al., 2022; Wosnitza & Bürger, 2015; Yang et al., 2021). 

Key objectives of online or in-class self-tests in math include (a) activating 
prior knowledge, (b) offering practice opportunities for previously learned 
math content, (c) providing diagnostic feedback regarding students’ math 
abilities and potential knowledge gaps to be addressed with further instruc- 
tional interventions, and (d) informing them about math prerequisites that 
are typically expected of students in math-intensive study programs (e.g., 
see Ćukušić et al., 2014; Lauermann, Wosnitza, et al., 2017; Pozo & Stull, 
2006; Thomas et al., 2017; Wosnitza & Bürger, 2015; Yang et al., 2021). These 
objectives are important because prior math knowledge is an essential facil- 
itator for mastering new math content and provides the context for future 
learning of mathematical concepts (Sidney & Alibali, 2015; Yang et al., 
2021). There are also motivational benefits of self-testing because students 
tend to increase their effort when they are made aware of relevant knowledge 
gaps, experience how difficult it is to retrieve pertinent information during 
self-testing (e.g., recall math content learned in secondary school), or feel 
dissatisfied with their self-tested performance and thus aim to improve in 
the future by increasing their effort in studying (Ibabe & Jauregizar, 2010; 
Yang et al., 2021). Self-testing also supports students’ self-regulation because 
it informs their ability self-evaluations (i.e., metacognitive knowledge) and 
allows them to monitor their learning progress (Ibabe & Jauregizar, 2010). 

Finally, math self-assessments can serve as an informational and screen- 
ing instrument that identifies potential knowledge gaps in math before pro- 
gram enrollment or in the early stages of higher education so that students 
can address these gaps before they can impede future learning; for instance, 
students can participate in preparatory math courses or use other educa- 
tional supports (e.g., see discussion in Tieben, 2019). Thus, the primary use 
of these math self-assessments and self-testing is to support student learning 
and knowledge retention and provide formative feedback for future learn- 
ing. However, prior research points to positive self-selection processes con- 
cerning students’ participation in preparatory or remedial math courses in 
STEM study programs, as students with comparatively more positive aca- 
demic characteristics are typically more likely to participate (e.g., self-se- 
lection based on students’ levels of aspiration, achievement motivation, and 
academic self-perceptions; Tieben, 2019). Accordingly, a key objective of 
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math self-assessments is to provide diagnostic feedback to students who are 
most in need of learning support and remediation and to encourage them to 
engage in available skill training opportunities. When self-testing is incen- 
tivized or made mandatory, low-achieving students are often most likely to 
benefit from it (Chevalier et al., 2018; Pozo & Stull, 2006; Schwerter et al., 
2022). Therefore, interindividual differences in students’ use of interven- 
tions such as self-testing are of central interest to the present study. 


1.2. Interindividual and Contextual Differences in Test-Taking 
Motivation and Test Engagement, and Implications for the 
Usefulness of Math Self-Assessments 


Importantly, students’ quality and frequency of participation in online or 
offline self-assessments can vary greatly, especially when these self-testing 
opportunities are voluntary. Evidence suggests that high-achieving students 
and students who report high levels of subject-specific motivation are gener- 
ally more likely to use online self-testing opportunities to prepare for exams 
or to practice new content (Ćukušić et al., 2014; Ibabe & Jauregizar, 2010; 
Schwerter et al., 2022; Thomas et al., 2017). Moreover, students’ motivation 
to engage and invest effort in a given self-assessment or test can impact its 
diagnostic usefulness and thus likely its effectiveness in allowing students to 
draw valid conclusions about their math ability (Chevalier et al., 2018; Dan- 
iel & Broida, 2004; Pozo & Stull, 2006). That is, if students do not perform 
to the best of their ability due to a lack of motivation, the test can provide 
only limited diagnostic information about the students’ ability and potential 
knowledge gaps. 

The context and modality of implementation can also make a difference. 
In-class quizzes are more effective in supporting students’ learning gains 
than web-based quizzes unless web-based quizzes are designed in a way 
to prevent cheating (e.g., students work individually on different problem 
sets and with imposed time constraints; Daniel & Broida, 2004). Common 
cheating strategies that are likely to diminish the effectiveness of web-based 
self-testing include printing and sharing answers with other students, look- 
ing up answers during the quiz, and working in groups (Daniel & Broida, 
2004; Kibble, 2007). The probability of cheating and thus invalidating the 
self-testing results increases when students’ participation in web-based, 
unsupervised quizzes is incentivized (Kibble, 2007). This evidence sug- 
gests that students’ test-taking motivation and test engagement can severely 
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impact the usefulness of self-testing either as a diagnostic tool or a learning 
support instrument. 

Test-taking motivation has been defined as “giving one’s best effort to the 
test, with the goal being to accurately represent what one knows and can do 
in the content area covered by the test” (Wise & DeMars, 2005, p. 2). How- 
ever, as we elaborate in greater detail subsequently, students’ motivational 
beliefs about the test’s content (e.g., its perceived usefulness and validity) can 
also affect their performance (Chan et al., 1997; Ibabe & Jauregizar, 2010). In 
this study, we use the broader term test engagement to describe not only stu- 
dents’ behavioral engagement (e.g., test completion and observed effort) but 
also their emotional (e.g., interest and enjoyment) and cognitive engagement 
(e.g., the cognitive effort spent by students while working on the test). In the 
educational literature, students’ behavioral, emotional (also called affective), 
and cognitive engagement typically refer to the quality of a student’s involve- 
ment with academic activities and goals and have emerged as a powerful pre- 
dictor of students’ academic outcomes such as achievement and persistence 
on academic tasks (Fredricks et al., 2004; Skinner et al., 2009). 

There are different approaches to the operationalization of students’ 
test-taking motivation and engagement that can be used to examine their 
impact on students’ test performance and learning, as well as on the test’s 
diagnostic utility and predictive validity. First, some researchers use within- 
or between-person experimental designs that incentivize students’ participa- 
tion in self-testing and estimate its effects on students’ subsequent learning 
gains relative to a non-incentivized control condition (Chevalier et al., 2018; 
Daniel & Broida, 2004; Kibble, 2007; Pozo & Stull, 2006). Typical incentives 
include making the test count towards a final grade, awarding extra credit 
for participation, or making students’ participation in self-testing compul- 
sory. Overall, this research shows that incentives tend to increase not only 
students’ effort during quizzing (i.e., self-testing) but also their subsequent 
learning gains and exam performance, for instance, on midterms or final 
exams. Accordingly, students’ test-taking motivation and engagement can 
significantly impact the usefulness of self-testing in educational settings. 

Second, another line of research focuses on the participants’ self-re- 
ported test-taking motivation (e.g., “I was extremely motivated to do well on 
these tests”) and face validity considerations such as whether the test-takers 
view the test as a relevant and valid indicator of what the test is supposed to 
measure (e.g., Chan et al., 1997). This evidence shows that students’ test-tak- 
ing motivation can significantly affect their test performance, especially in 
low-stakes test environments (Chan et al., 1997; Duckworth et al., 2011; Pohl 
et al., 2021). That is, low effort is likely to result in reduced performance. 
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Some studies also show that students’ observer-rated test-taking motivation 
can affect the test’s predictive validity; low levels of test-taking motivation 
and engagement tend to diminish its validity (Duckworth et al., 2011). Fur- 
thermore, interindividual differences in perceived face validity and test-tak- 
ing motivation can contribute to observed group differences in test per- 
formance, such as achievement gaps between different ethnic groups, even 
when differences in prior performance are controlled for (Chan et al., 1997). 
Accordingly, differences in test-taking motivation and engagement should 
be taken into account in the design of self-testing opportunities and when 
interpreting between- or within-person performance differences. 

Finally, students’ motivational beliefs about the tested content (e.g., its 
perceived usefulness and validity) and affective-motivational experiences 
during the test (e.g., interest, cognitive effort) are core indicators of their test 
engagement that can affect both students’ test performance and subsequent 
effort in learning (Ibabe & Jauregizar, 2010; Penk & Schipolowski, 2015; 
Sundre & Kitsantas, 2004). Expectancy-value theory (EVT; Eccles & Wig- 
field, 2020) is a prominent motivational framework that has been used to 
describe students’ test-taking motivation and engagement (Baumert & Dem- 
mrich, 2001; Penk & Schipolowski, 2015; Silm et al., 2020; Sundre & Kit- 
santas, 2004). According to this framework, students’ achievement-related 
choices and behaviors (e.g., effort and persistence while taking a given math 
test) can be explained by two proximal psychological predictors: students’ 
expected success on the test and their subjective valuing of the tested content 
or the test outcome. The theory further suggests that students may value 
achievement-related tasks because they are interesting and enjoyable (inter- 
est value), because they are useful for other goals (utility value), or because 
they are personally important (attainment value). 

Most of the reviewed evidence on test-taking motivation, however, has 
focused on students’ self-reported or observed effort while taking a (self-)test 
rather than their motivational beliefs and experiences such as test-specific 
self-concept of ability, interest, enjoyment, perceived utility of the tested con- 
tent, and cognitive engagement (e.g., Silm et al., 2020; Sundre & Kitsantas, 
2004). Penk and Schipolowski (2015) further note that relatively few stud- 
ies to date have examined the interrelations between students’ test-related 
expectancy, valuing of the test content or outcome, test-taking effort, and test 
performance in the same sample. The evidence that does exist has produced 
rather mixed results regarding the relative weight of different predictors of 
test-taking effort and performance (e.g., see Baumert & Demmrich, 2001; 
Freund & Holling, 2011; Freund et al., 2011; Penk & Schipolowski, 2015). 


103 


2. The Present Study 


The key objective of the present study was to explore interindividual differ- 
ences in students’ test engagement while taking a freely available self-assess- 
ment of math prerequisites for studying in math-intensive study programs 
in the German state of North Rhine-Westphalia (NRW). In 2015, public uni- 
versities and universities of applied sciences in NRW agreed on common 
prerequisites and study requirements for mathematics for students interested 
in pursuing a degree in math-intensive study programs such as economics, 
computer science, natural sciences, engineering, and technology (NRW Min- 
istry of Culture and Science, 2015). The test is not specifically targeted to the 
needs of students pursuing a postsecondary degree in mathematics. These 
prerequisites refer to ten math content areas, which are tested via the so-called 
WINT-Check, an online math self-assessment with eleven subtests.” Upon 
completing a given subtest, students receive performance feedback (i.e., the 
proportion of correctly solved math problems), can review the specific math 
problems they worked on, and are provided with links to tailored e-learning 
units for the tested content to address potential knowledge gaps. The test is 
an open educational resource and can be used for various purposes, including 
as a screening tool, to practice course content, or as an informational tool 
about the types of math prerequisites that are typically expected of students 
in math-intensive study programs before enrollment (for further information, 
e.g., about the test items, see www.orca.nrw). 

In the broader scope of the Test-M project, the WINT-Check was revised 
by content specialists to ensure curricular validity (for the state’s math cur- 
riculum), the subtests were shortened so that each subtest could be com- 
pleted within about 20 minutes, icebreaker questions were added for some of 
the more challenging subtests (e.g., trigonometry), and the 11 subtests were 
validated in a sample of students enrolled in math-intensive study programs 
by linking the students’ test results to their course performance in their study 
program. Of interest for the present study are interindividual differences in 
the students’ test engagement while completing parts of the self-test online 
or in a pen-and-paper format. In addition, we examined the associations 
between test engagement and test performance to determine the relevance 
of our test engagement indicators for students’ performance. We use Eccles 


2 One of the ten content areas was split into two subtests (elementary functions and higher 
functions). The 11 subtests are: 1) Basic arithmetic operations, 2) Exponents, roots, loga- 
rithms, 3) Terms and equations, 4) Elementary functions, 5) Elementary geometry, 6) Tri- 
gonometry, 7) Higher functions, 8) Differential calculus, 9) Integral calculus, 10) Linear 
equation systems, 11) Vectors and analytic geometry. 
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et al’s EVT to operationalize students’ test-specific, as well as math-related 
motivational beliefs. In general, we expected that students with more pos- 
itive academic characteristics (e.g., prior achievement, math-related moti- 
vations) would exhibit higher levels of test engagement, which would then 
predict greater performance on the self-assessment. 

We also explore possible group-level differences by gender, immigration 
status (whether German is the primary language spoken in the home envi- 
ronment), mode of participation (in-person vs. online), and type of partici- 
pating institution (regular research-oriented public university vs. university 
of applied science [UAS]) but we refrain from posing specific predictions. In 
general, gender differences in mathematics tend to favor male over female 
students (Cheryan et al., 2017; Lauermann et al., 2020; Lauermann, Tsai, et 
al., 2017) but students in the present sample have chosen to study in a STEM 
field, which makes this prediction less certain (see Benden & Lauermann, 
2022). In addition, gender differences tend to be domain-specific, as some 
fields are much more gender-balanced (e.g., mathematics, biology, chemis- 
try) than others (e.g., engineering, physics, computer science; Cheryan et al., 
2017). Students who do not speak German as a primary language at home 
may be at a disadvantage because the self-assessment in the present study 
is administered in German. At the same time, such students may be partic- 
ularly highly motivated to do well in higher education, especially students 
with an international background (Lauermann, 2012). The mode of partici- 
pation could make a difference as well, as some previous studies have shown 
that unsupervised web-based self-testing is less effective than in-class testing 
(Daniel & Broida, 2004; Kibble, 2007). As we elaborate subsequently, how- 
ever, with very few exceptions, the data collections in the present study were 
monitored by research assistants, either in person or via video conference, 
so the mode of participation may be less consequential in this case. Finally, 
students attending a regular university tend to be academically stronger 
than those attending a UAS (Tieben, 2019) but the type of institution may be 
inconsequential once preexisting differences in achievement and math-re- 
lated motivation are taken into account. Thus, we conduct exploratory anal- 
yses to analyze such group-level differences. 

In summary, we examine the following research questions (RQ): To what 
extent are differences in students’ test engagement and performance linked 
to (1) students’ background characteristics and mode of participation (i.e., 
gender, family language, type of higher education institution attended, and 
in-person vs. online participation in the self-assessment; RQ#1); (2) preexist- 
ing differences in achievement and learning opportunities such as the atten- 
dance of advanced placement (AP) math courses in high school (i.e., high- 
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school GPA, final math grade, and AP math course attendance; RQ#2); and 
(3) preexisting differences in math-related motivations (i.e., math self-con- 
cept and interest, RQ#3)? We also examine if differences in students’ test 
engagement are linked to corresponding differences in test performance, 
controlling for preexisting differences in students’ background characteris- 
tics, achievement, and motivation (RQ#4). We expected that higher-quality 
engagement would result in higher test performance, controlling for differ- 
ences in background characteristics, prior achievement, and math-related 
motivations. Finally, drawing on EVT and related research, we examine the 
predictive effects of students’ test-specific motivational beliefs (i.e., test-spe- 
cific self-concept of math ability and interest/enjoyment) not only on stu- 
dents’ test performance but also on their behavioral engagement because 
students’ motivational beliefs are conceptualized as a proximal predictor of 
effort and persistence (see RQ#4). 


3. Methods 
3.1. Participants and Procedure 


Participants in the present study were 3,213 postsecondary students who 
were taking either a required core course or a preparatory math course for 
beginning students in a math-intensive field of study (e.g., economics, com- 
puter science, natural sciences, and engineering) and who had completed at 
least one math problem of the revised WINT-Check correctly.” Most partic- 
ipating courses focused on math (the remaining 7 out of 36 courses focused 
on statistics, computer/data science, or quantitative research methods, e.g., 
for engineering students). A multimatrix design (Frey et al., 2009) with 22 
systematically overlapping test booklets of approximately equal length and 
difficulty was used to reduce the testing time to about 45-60 minutes per 
participant (completion of all 11 subtests of the revised WINT-Check, in 
addition to all survey questions included in this study, would have required 


3 Of 4,423 initial participations, 4 cases were out of sample (e.g., an instructor), 160 were 
duplicates (i.e., the same participant was sampled more than once due to attending multiple 
sampled courses or clicking on the same test link multiple times), 660 cases had insufficient 
data (no response to any demographics and dropped out prior to reaching the math prob- 
lems), and 386 participants did not answer any math problems correctly, and thus their per- 
formance data could not be analyzed (in most cases, these participants saw at least some of 
the math problems but did not provide answers). Our final sample consists of 3,213 students 
enrolled in math-intensive study programs and attending courses for beginning students in 
their respective study programs. 
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at least four hours of testing time). Each subtest was split in half (approx. 10 
minutes per half), and each participant worked on four subtest halves. Each 
half was included in four booklets, and each complete subtest was included 
in three booklets ensuring sufficient overlap in test items to link students’ 
performance across booklets. 

Students participated in the self-testing session during class time (in the 
summer and winter terms of 2021) and were randomly assigned to work on 
one of the 22 booklets. Students received personalized links to the book- 
let-specific solutions and a link to freely available e-learning units covering 
the tested content after all self-tests had been collected. Due to the Covid- 
19 pandemic, some courses took place in person, others online. Students in 
in-person courses completed a paper version of the math self-test; students 
in online courses completed it online, typically during a video conference 
with the entire course and in the presence of the course instructor. Research 
assistants were present during the in-person and online data collections to 
introduce the study, monitor the data collections, and answer questions. Stu- 
dents’ participation was voluntary, not incentivized, and they could with- 
draw from the study at any time. The study was approved by the institutional 
ethics review board at TU Dortmund University (GEKTUDO_2020_19). 

Students completed a consent form and answered questions about their 
demographic characteristics, prior performance, and math-related expec- 
tancy-value beliefs at the beginning of the self-assessment. After each sub- 
test half (i.e., at four time points during the test), students evaluated their 
test-related motivations and engagement. 


Students’ Background Characteristics and Mode of Participation 


Questions about students’ background characteristics were asked at the begin- 
ning of the self-assessment and included items about gender (N = 3,123 test 
takers; 67% male, 33% female, <1% diverse), age (81% of the sample < 21 
years of age), whether German is the primary language spoken at home (76% 
German, 24% another language), and the academic track of their secondary 
school (75% highest academic track, 11% comprehensive school with different 
tracks, 14% other). The type of higher education institution attended by the 
students was recorded by research assistants (75% attending a regular public 
university, 25% a university of applied science [UAS]). Data were collected 
in 8 universities and 9 UAS but universities had larger student populations. 
Regarding the mode of participation, about 71% of the students participated 
online, and the remaining 29% in person, using a pen-and-paper test format. 
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Prior Achievement and Advanced Placement Math Course Attendance 


The students’ high school grade point average (GPA) was recoded such that 
high values indicate high performance on a scale from 1 (low) to 4 (high), 
with M = 2.88 and SD = 0.69 (university: M = 3.03, SD = 0.65; UAS: M = 2.43, 
SD = 0.64). Similarly, students’ self-reported final math grade in high school 
was recorded on a scale from 0 (low) to 15 (high), with M = 10.68 and SD = 3.24 
(university: M = 11.27, SD = 2.96; UAS: M = 8.97, SD = 3.40). About 56% 
of the participants had completed an advanced placement math course in 
high school (university: 62%; UAS: 37%). Participation in such courses sug- 
gests both higher math achievement due to self-selection into advanced math 
courses and exposure to comparatively more advanced math content (i.e., 
different learning opportunities). 


Motivational Beliefs About Math 


Students’ expectancy beliefs and valuing of math as a subject domain were 
assessed at the beginning of the study on a scale from 1 (strongly disagree) 
to 6 (strongly agree) using previously validated items (Gaspard et al., 2015; 
Wigfield & Eccles, 2002). The expectancy component was captured via three 
items focusing on students’ math ability self-concept (e.g., “I am good at 
math,” a = .88), and the value component via three items assessing students’ 
math interest (e.g., “I enjoy doing math,” a = .94). In this study, we did not 
differentiate between math ability self-evaluations and expectancy of future 
success because they tend to be highly related in the math domain (Wigfield 
& Eccles, 2002). 


Test-Specific Beliefs and Indicators of Test Engagement and 
Performance 


Before taking the math self-assessment, students were asked to evaluate 
whether they perceived each of the WINT-Check content areas (i.e., sub- 
tests) as relevant for their study program so that we could evaluate their pre- 
existing beliefs about its potential utility (on a three point scale: 1 = not at 
all relevant, 2 = partly relevant, 3 = highly relevant). In addition, four times 
during the self-testing (i.e., after each of four test parts corresponding to 
different subtest halves), students were asked to evaluate their performance 
and test engagement regarding the math problems they had just worked on. 
The questions referenced the content of the test rather than the test in general 
because students worked on different booklets. Students’ test-specific ability 
self-concept was assessed via two items (“I am very good at the content tested 
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in Part [1-4]” and “I know the content tested in Part [1-4] at a high level,” 
a = .92 to .94 and r,, = .60 to .69 across the four time points). The perceived 
relevance of the tested content for one’s study program was assessed as an 
indicator of test utility (“Students in my field of study must know the math 
content tested in Part [1-4]” and “The math knowledge tested in Part [1-4] 
is expected of students in my study program,” a = .90 to .94 and r,, = .61 to 
.72). To the extent that these questions reflect students’ beliefs that the test 
accurately captures what it is supposed to measure (i.e., math prerequisites 
for their study program), these items also indicate face validity. 

Students’ affective engagement and intrinsic value were assessed with two 
items (“I found the math problems in Part [1-4] interesting” and “I enjoyed 
working on the math problems in Part [1-4],” æ = .90 to .95 and r,, = .59 to 
.68). Students’ cognitive engagement was assessed with one item (“The math 
problems in Part [1-4] were brainteasers that made me think,” r,, = .48 to 
.61). Students’ self-reported test motivations were aggregated across all four 
parts to obtain one booklet-specific overall score for each construct. Finally, 
students’ behavioral engagement was inferred from the proportion of math 
problems they chose to work on (i.e., entered any correct, partly correct, or 
incorrect answer) relative to the total number of assigned math problems in 
their booklet. This proportion is reduced by both skipping and test dropout 
because both factors indicate lower levels of behavioral engagement with the 
test. Most math problems included multiple parts so that each answer field 
was counted as a separate response in calculating these proportions. Dif- 
ferent booklets contained different subsets of math problems and thus also 
different numbers of answer fields. We calculated booklet-specific indicators 
of behavioral engagement by focusing on the booklet-specific proportion of 
math problems students had worked on. 

We calculated the proportion of correct answers relative to all seen math 
problems (i.e., answer fields) as an indicator of booklet-specific test perfor- 
mance. We chose to treat test dropout as missing data in these calculations 
(rather than wrong responses) because dropout can result from various rea- 
sons, including test disengagement (Rose et al., 2017). If test dropout results 
primarily from a lack of math knowledge, this procedure may lead to some- 
what inflated estimates of the proportion of correct responses. Therefore, 
we conducted a set of supplemental exploratory analyses focusing on test 
dropout, which was treated as a binary variable (0 = test completed; 1 = drop- 
out). In addition, note that test dropout is included in the operationalization 
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of behavioral engagement and is thus taken into account as an indicator of 
disengagement.* 


4. Results 
4.1. Preliminary Analyses 


Before attending to our main research questions regarding the predictors of 
students’ test engagement and performance, we conducted a series of explor- 
atory analyses focusing on the test’s overall face validity (i.e., whether the 
tested content is viewed as relevant to the students’ fields of study), the amount 
and correlates of test dropout, and potential between-booklet differences that 
may need to be taken into account in our main analyses. 


Face Validity 


Before taking the self-assessment, the vast majority of test-takers (88%-99%) 
rated the eleven content areas included in the WINT-Check as at least partly 
to highly relevant for their respective study programs, which supports the 
test’s face validity. More advanced content (e.g., trigonometry) and geometry 
subtests received somewhat lower ratings than less advanced and non-ge- 
ometry content areas, which suggests that this content is viewed as more 
specialized (see Figure 1). The students generally viewed the content areas 
in their assigned booklet and the specific math problems they were assigned 
to work on as relevant to their field of study (e.g., indicating that students in 
their field of study are expected to know this type of math content; aggregated 
utility ratings across the four time points: M = 4.53, SD = 0.97, Mdn = 4.5, 
Mode = 6.0, on a six-point scale; see Figure 2). 


4 Inthe broader scope of the Test-M project, we tested a second-order generalized partial cre- 
dit model, which estimated the math ability of each participant across booklets and the 11 
tested content areas as a latent variable (i.e., based on an 11-dimensional first-order model 
and assigning equal weights to each of the 11 subtests to derive a second-order factor of 
math ability). The correlation between this estimate of math ability and the indicator of 
booklet-specific test performance used in the present study was—as expected—very high, 
r= .89, p < .001. Of primary interest for this study are students’ test-taking behaviors, which 
is why we focused on students’ response patterns rather than their latent math ability. 
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Figure 1: Perceived Relevance of Tested Content Areas Before Self-Testing 
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Note. The responses are reported in percentage points (0-100%) out of all valid responses. 


Figure 2: Average Perceived Relevance of Tested Content Across the Eleven Content 
Areas (After Self-Testing) 
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Note. The relevance of each content area was evaluated on a six-point scale (1 = strongly disagree to 

6 = strongly agree) after the students had worked on math problems belonging to that content area in 
their assigned booklet (average number of participants who worked on a given content area across dif- 
ferent booklets: n = 646). BA = Basic Arithmetic Operations, ERL = Exponents, Roots, and Logarithms, 
TE = Terms and Equations, EF = Elementary Functions, EG = Elementary Geometry, TR = Trigonometry, 
HF = Higher Functions, DC = Differential Calculus, IC = Integral Calculus, LES = Linear Equation Sys- 
tems, VAG = Vectors and Analytical Geometry. The black area shows the average rating of relevance (M) 
and the error bars indicate one standard deviation above and below the mean (M +/- 1SD). 
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Preliminary Analyses of Test Dropout 


Before we attend to our main research questions regarding test engagement 
and performance, we present a set of exploratory analyses of test dropout 
(note that test dropout is included in our assessment of behavioral engage- 
ment, see Methods). The majority of students (83%) completed the entire 
self-testing battery assigned to them. Bivariate analyses revealed no signif- 
icant test dropout differences for gender (male vs. not male: 16% vs. 17%; 
x’(1) = 0.65, p = .448). However, we observed significantly higher levels of 
test dropout among nonnative speakers of German (German vs. not Ger- 
man: 15% vs. 21%, x(1) = 11.73, p < .001), UAS students (university vs. UAS: 
16% vs. 20%, x7(1) = 7.36, p = .007), online test-takers (in person vs. online: 
7% vs. 21%, x7(1) = 83.02, p < .001), and students who had not attended an 
AP math course in high school (AP class vs. regular math class: 13% vs. 
21%, x°(1) = 33.07, p < .001). Students who failed to complete the self-assess- 
ment also had somewhat lower high-school performance (GPA: AM = -0.26, 
SE = 0.03, t(3083) = -7.67, p < .001, d= 0.37; math grade: AM = -0.92, SE = 0.16, 
t(3025) = -5.84, p < .001, d = 0.29) and less positive attitudes toward math 
(math self-concept: AM = -0.26, SE = 0.05, t(3146) = 5.10, p < .001, d = 0.25; 
math interest: AM = -0.25, SE = 0.06, t(3143) = 4.48, p < .001, d = 0.22). There 
were no significant differences regarding the perceived utility and relevance 
of the self-assessment for students’ fields of study (aggregated across all four 
time points: AM < 0.01, SE = 0.05, t(3004) = 0.08, p = .938). Low face validity 
is thus not a likely driver of test dropout. 


Bivariate Correlations and Between-Booklet Differences 


Descriptive statistics, bivariate associations, and intraclass correlations (ICC) 
are shown in Table 1 for all variables of interest. The ICC values reflect the 
proportion of systematic between-booklet differences in the assessed con- 
structs, relative to their total variance. As is to be expected given the ran- 
domized assignment of participants to booklets, all pretest variables had 
close to zero intraclass correlations (ICC < .01 for demographic characteris- 
tics, prior achievement, and math-related motivations). Constructs assessed 
during the self-assessment (i.e., test-specific ability self-evaluations after stu- 
dents had worked on specific math problems, test engagement indicators, and 
booklet-specific performance) had slightly higher but still relatively small 
between-booklet variance (ICC = [.014, .097], see Table 1). Despite these rather 
small differences, we report within-booklet correlations for constructs that 
referenced booklet-specific content in Table 1 (below the diagonal) so they can 
be compared to nonadjusted bivariate correlations (above the diagonal). All 


112 


“(papıs-oMm}) TO’ > Axx ‘GO’ > Ax 
*ySO19]U! = INI ‘AUIqe Jo }də9u09-41ƏS = YIS 
‘JOOUDS YSly ul 8Fe1any }UlOd Apel = Yd9 ‘Juawaoe|d paoueApy = dy 89UB10S paliddy Jo AyISJOAIUN = SYN IZZ’YPT = Y 191N00q 13d azıs ajdwes sFelany 'EZT'E = N ‘BION 


260° 920° LTO" YTO evo" vvo 991 
loot't] [oot't] [9‘T] [9‘T] [9‘T] [9‘T] (9‘T] [9T] [st‘ol [p‘T] IT‘o] [r'o] [T'o] [T'o] [t'o] aguey algIssod 
ETZE ETZE 8szoEe QEOE 900€ 9Z0E StTE 8tTE 120€ S80€ 8STE ETZE ETZE O6TE SseTe N 
E9'TZ Bore voT LOT 16'0 80T STT SOT 1743 690 0s0 gro vro evo Lv'0 as 
00'T9 ee'cs TIE Ble egy GEE 6Tr LTY 89'0T 887z 950 620 glo 92.0 190 W 
**0S" xx T xxt ** LC ++89" br" **0G +rEG' ++*0G' all ZO" #rGgE" «90° «VT SOURWUIOJEd sel "ST 
++ TO *xEE xT re" E74 **6C *+80 *x6E" **87 «GT GT 90" +20" juawasesua jeloneysg ‘YT 
HET gg“ #4 QE" «xOT +440" **80° **xG0- *xOT- ##7 1 *+10” +*G0" **60° ax TD TO`- yuəwəgeguə ƏNYUZOD ET 
**GV" xx E +rx9E" +xBE" +99" +99" xxt t #xTE" *+*97° **87 TO ** 17 **L0™- **L0° qualasesua anı9ayV “TT 
** 60" *%QT" **60° *x0V" 24 ++ LO" **6T" *+ 77 +*GT' ran zo" x*+*OT’ zo’ **90° Aunn aylosds-jsel "TT 
+69 #40" **80- #9" #x9E° **0G" **6G" **60" **0r" xa TV" zo‘ x+6G **60- *+*9T' vosaymeds1seL ‘OT 
xxi **97 *%L0° **GG" #A LO" *x8V" DL" 4x OV" VE VE *+*70° *x0T" zo *G0° INI YEN 6 
**x0G" #8" +**xGO™- xxet *+*8T' xxl xD **89 xxet EETA ++G0" #00 ++ 10" xx VƏS PNW "8 
++*0G' *xBC° xx ++0E" xxet 4x80" 4x97" 4x89" xT #4 VC aT TD" #4 TO`- ZO apess yrew jeulg LE 
lV" 4x87" *40T- **9T" «GT **00" *xSE' xxet" xD er ran xrBE" **60° +90" Vd9 10049S UBIH ‘9 
xS +87 xlo **6Z' #4070" **07" *aVO EETA EPIA **GT" eo‘ **CC. **OT' *+/T' 9S1N09 YEW dV 'G 
zo **GT' +90” TO zo’ TO *VO" **G0" EETA EETA £0 **x60° TO" go- (autjuo 'sa) uos1əd-u] Y 
ae axGT" **60- *x8T *xOT *x6C° x07 HET #xTE" *x8° **CC **60° TO`- xx 0- (syn 'sa) Ayısıoniun © 
**G0" **GO" ET AR *+20” To’ **60"- TO`- **80° 00° **60° *x0T" TO 00° x0" asensue| vewleg EA 
xxet **90° TO`- *+20" **G0" xxs *+*G0' **L 7 co" **G0"- *40T" €0"- *70- xv0° alew "T 
ST vT ET TT TT OT 6 8 Z 9 S v € [4 T aiqelied 


(991) suone|au09 
ssejsenuj pue ‘(jeuose!q ay} mojag) SUONEISLIOQI Ja/yOog-UIUUM ‘(Jeuoselq 24} anoqy) SUONe|a09 YellenIg ‘sonsnei1s sanduoseq :T aiqeL 


113 


booklet-specific variables (i.e., test-specific self-concept, the perceived utility 
and relevance of the assigned math problems, all test engagement indicators, 
and students’ test performance on their assigned booklet) were group-mean 
centered in subsequent analyses to eliminate any differences between booklets. 

As shown in Table 1, the within-booklet and corresponding nonad- 
justed bivariate correlations were very similar. All correlations were in the 
expected direction and revealed positive associations between prior student 
achievement, motivation, test engagement, and test performance. The only 
exception was our measure of cognitive engagement, which was positively 
linked to students’ math interest and test-specific affective engagement, but 
(weakly) negatively to students’ high school achievement, math self-concept, 
test-specific self-concept, and test performance. Both lower-achieving stu- 
dents and students who enjoyed working on the math problems expended 
higher levels of cognitive effort. Low-achieving students may need to expend 
higher cognitive effort to solve the assigned math problems, whereas intrin- 
sically motivated students may want to do so. These two factors are not 
mutually exclusive. 


4.2. Predictors of Test Engagement and Test Performance 


We conducted a series of path analyses linking students’ demographic char- 
acteristics, preexisting achievement differences (high school GPA, final math 
grade in high school, AP math course attendance), and math-related motiva- 
tions (math self-concept and interest) to different indicators of test engage- 
ment and performance. Multilevel models are not appropriate for our data 
due to the limited number of clusters (booklets) and the very small ICC values 
for all outcome measures given our randomized multimatrix booklet design 
(see Table 1). However, we implemented standard error corrections for nested 
data (students nested within booklets) and used group-mean centering for 
all constructs referencing booklet-specific content (e.g., questions about the 
specific math problems a given student worked on). All models were fully 
saturated and missing data were handled with the full information maximum 
likelihood algorithm. 

We tested four sequential models (M1-M4, Table 2) entering demo- 
graphic data (M1), high school achievement indicators (M2), as well as stu- 
dents’ math self-concept and math interest reported prior to taking the self- 
test (M3) as predictors of students’ test engagement and performance. In M4, 
we also examined the incremental predictive effects of students’ test-spe- 
cific self-concept, affective engagement, and cognitive engagement on their 
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behavioral engagement and test performance, controlling for preexisting 
differences in achievement and math-related motivations. These analyses 
thus examined the extent to which test-related psychological variables such 
as affective and cognitive engagement (incrementally) predicted students’ 
test-taking behaviors and performance. 

For RQ#1, path analyses shown in Table 2 indicated that group-level dif- 
ferences in students’ test engagement and performance as a function of stu- 
dents’ gender, language background, type ofinstitution (university vs. UAS), 
and mode of participation (in-person vs. online) were generally small but 
consistent across analyses (M1-M4). Male students evaluated their test-spe- 
cific math abilities more positively than did female students, perceived the 
test as somewhat more relevant for their studies (utility), reported slightly 
higher levels of interest in the math problems they worked on (affective 
engagement), and performed slightly better on the self-assessment, even 
when we controlled for all other covariates in M4 (Table 2). Even though 
some of these effect sizes are rather negligible (e.g., B = .04 in M4), the dif- 
ferences consistently favored male participants and thus warrant attention. 

Students whose primary language at home was not German reported 
slightly higher test-specific self-concept (i.e., for the math problems they 
were assigned to work on) and higher affective and cognitive engagement 
but we observed slightly lower levels of behavioral engagement (due to skip- 
ping and test dropout) and lower test performance (see M1 in Table 2). Dif- 
ferences in behavioral engagement and test performance became nonsignif- 
icant when we controlled for prior achievement (M2) and motivation (M3) 
but reappeared once differences in test-specific self-concept and engagement 
were controlled for (M4, Table 2). Thus, insufficient German skills may have 
impeded students’ performance, independent of their math-related motiva- 
tions and affective/cognitive engagement during the test. 

University students evaluated their test-specific self-concepts more pos- 
itively and exhibited higher levels of affective and behavioral engagement 
than did UAS students, although these differences in test engagement 
became nonsignificant once preexisting achievement and motivational dif- 
ferences were controlled for (see M3 in Table 2). Notably, university students 
outperformed UAS students, even when all other covariates were included 
as predictors of test performance (see M4 in Table 2). These findings could 
be a sign of differences in learning opportunities between these two student 
populations. 

Finally, students who participated in the self-assessment in person rather 
than online had significantly higher levels of behavioral engagement, mainly 
due to a higher proportion of test dropouts among online participants. Over- 
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all, very few notable differences emerged between the two modes of partic- 
ipation.° 

For RQ#2 and RQ#3, our analyses showed that students’ high school 
achievement (GPA, final math grade, and attendance of an AP math class, 
see M2-M3 in Table 2 for RQ#2) and math-related motivations assessed prior 
to self-testing (i.e., math self-concept and math interest, see M3 in Table 2 
for RQ#3) positively predicted students’ test-specific self-concept of math 
ability, perceived test utility, affective and behavioral engagement, and test 
performance. Controlling for preexisting achievement differences and AP 
math course attendance in high school, students’ self-concept of math ability 
no longer significantly predicted their affective and behavioral engagement 
while taking the test, whereas students’ general interest in math, reported 
before self-testing, did (see M3 in Table 2). Thus, students with more posi- 
tive motivational beliefs about math showed a higher quality of test engage- 
ment; they enjoyed working on the math problems more (affective engage- 
ment), invested higher levels of cognitive effort (cognitive engagement), and 
attempted to solve more math problems (behavioral engagement). As noted 
previously, an interesting and unexpected pattern emerged for students’ cog- 
nitive engagement (see M3 in Table 2), which was negatively predicted by 
students’ prior achievement and math self-concept of ability but positively 
by students’ self-reported math interest reported before self-testing. Students 
with lower levels of prior achievement and math self-concept may have a 
higher need to invest cognitive effort to do well on the test; at the same time, 
students who enjoy doing math are also more willing to invest cognitive 
effort to solve the assigned math problems. 

Finally, for RQ#4, our analyses showed that students’ test-specific moti- 
vational beliefs (test-specific self-concept, utility, affective, and cogni- 
tive engagement, see M4 in Table 2) significantly predicted both students’ 
behavioral engagement and their test performance, controlling for differ- 
ences in students’ background characteristics, high school performance, 


5 Small differences in test-taking self-concept and test performance emerged in favor of 
online participants (6 = -.05 to -.03) in our most complex analyses (M2-M4, Table 2), but 
the corresponding bivariate associations were close to zero and not significant (see Table 
1). The likely explanation is that in-person participants had somewhat higher high school 
achievement and math-related motivation (see Table 1); once high school achievement 
differences were accounted for in M2-M4 (Table 2), a slight test performance difference 
emerged favoring online participants. That is, when online and in-person participants had 
comparable high school achievement, online participants performed slightly better on the 
test. This could be due to having the ability to look up information during the online self-as- 
sessment, but in view of the negligible effect size, we refrain from discussing this finding 
further. 
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and math-related motivations assessed before self-testing. Higher levels of 
perceived test-specific ability and affective engagement during self-testing 
had unique positive predictive effects on students’ behavioral engagement 
(fewer skipped questions and test dropouts) and test performance. Notably, 
students’ affective engagement during the test was positively related to how 
many math problems students chose to work on (behavioral engagement) 
and how many math problems they answered correctly (test performance), 
even when differences in students’ test-specific ability self-evaluations and 
all remaining achievement- and motivation-related predictor variables were 
accounted for (see M4 in Table 2). 

Our final path models (M3 and M4, Table 2) explained a substantial 
amount of variance in students’ test-specific self-concept (46%), affective 
engagement (33%), behavioral engagement (17% in M3, 21% in M4), and 
test performance (47% in M3, 58% in M4), but much smaller amounts of 
variance in perceived test utility (8%) and cognitive engagement (6%). Vari- 
ance in these two constructs thus appeared to be only weakly related to the 
included predictors. This finding is perhaps not surprising given that stu- 
dents generally viewed the test as relevant for their respective fields of study, 
and that cognitive engagement could be a mixture of need-based (e.g., due to 
low achievement) and motivational (e.g., intrinsic interest) factors that likely 
interact and may make cognitive engagement more difficult to predict. 


5. Discussion 


Students in math-intensive study programs in higher education often strug- 
gle with achievement-related challenges, significant motivational declines, 
and relatively high levels of course dropout (Benden & Lauermann, 2022; 
Chen, 2013; Cromley et al., 2016; Heublein et al., 2022; Rach & Heinze, 2017). 
Accordingly, various interventions have been developed to support students’ 
success and retention in STEM fields, such as diagnostic self-tests and tai- 
lored skill-training interventions (Cukusic et al., 2014; Schwerter et al., 2022; 
Tieben, 2019; Wosnitza & Biirger, 2015). Math self-assessments, which were 
of primary interest for the present study, have emerged as a valuable educa- 
tional resource that can support students’ academic success, for instance, by 
providing diagnostic feedback and opportunities to practice math content 
(Chevalier et al., 2018; Pozo & Stull, 2006; Schwerter et al., 2022). However, 
accumulating evidence suggests that students with less advantageous aca- 
demic backgrounds (e.g., lower prior achievement and academic motivation) 
are comparatively less likely to take advantage of self-testing and remediation 
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interventions, despite being most likely to benefit from them (Chevalier et 
al., 2018; Schwerter et al., 2022; Tieben, 2019). Moreover, students’ test-taking 
motivation and engagement can affect the diagnostic accuracy of self-testing 
batteries and thus their potential to support students’ ability self-evaluations, 
self-regulation, and monitoring of learning progress (Chevalier et al., 2018; 
Daniel & Broida, 2004; Pozo & Stull, 2006). 

Given this evidence, the present study examined interindividual differ- 
ences in STEM students’ test engagement and performance on a freely avail- 
able self-assessment designed to assess math prerequisites for math-intensive 
study programs in NRW (the so so-called WINT-Check).° An additional 
objective was to examine whether differences in students’ affective-mo- 
tivational experiences during self-testing (e.g., test-specific self-concept of 
ability, affective engagement, and cognitive engagement) may predict corre- 
sponding differences in behavioral engagement (i.e., skipping of test items, 
test dropout) and test performance, controlling for students’ demographic 
characteristics (e.g., gender), prior achievement, and math-related moti- 
vations. Thus, we examined if motivational differences may contribute to 
different test-taking behaviors and performance and therefore potentially 
affect the test’s diagnostic utility. We discuss our main findings in the fol- 
lowing sections. 


5.1. Students’ Background Characteristics and Mode of 
Participation 


Interindividual differences in test engagement and performance emerged 
as a function of students’ gender, type of educational institution (university 
vs. UAS), language background, and mode of test administration (online vs. 
in-person). First, although the estimated effect sizes were relatively small, 
male participants and university students consistently exhibited higher levels 
of test engagement and had slightly higher test performance, even when all 
other covariates were included as control variables. Such differences may be 
due to gendered self-selection processes in different fields of study, as well as 
disparities in students’ access to learning opportunities. Some of the most 
math-heavy domains included in our study, such as engineering, physics, 
and computer science, tend to attract substantially more male than female 


6 The WINT-Check also offers access to freely available and matching e-learning units, but 
students’ use of these units was beyond the scope of the present research as we were unable 
to track the students’ study behaviors after completing the self-assessment, with the excep- 
tion of their end-of-term achievement. 
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students (Cheryan et al., 2017). Thus, on average, male students are likely to 
be exposed to more advanced math content in their chosen field of study. 
Previous evidence further suggests a more positive self-selection ofboys than 
girls in math-intensive fields because high-achieving boys are more likely 
to be interested in these fields than are high-achieving girls (Breda & Napp, 
2019; Wang et al., 2013). 

Another relevant factor may be the exposure to different learning envi- 
ronments before enrollment. Male-dominated fields of study are likely to 
attract individuals who have had comparatively higher-quality learning 
opportunities in math, and the same is true for regular public universities 
compared to UAS (for comparisons between university vs. UAS students in 
engineering, see Tieben, 2019). For instance, male students and university 
students in our study were more likely to have taken an AP math course than 
were female students and UAS students, respectively. Other unobserved dif- 
ferences in the quality of the experienced learning environments may exist 
as well and should be considered in future research (e.g., high school selec- 
tion). 

Second, students whose primary language at home was not German were 
less likely to complete the math self-assessment and underperformed relative 
to native speakers, despite reporting higher levels of test-specific self-con- 
cept, affective engagement, and cognitive engagement. These differences in 
test performance could be due to differences in the participants’ language 
proficiency. Students’ text comprehension can affect their ability to perform 
well on math assessments, especially for word problems (Fuchs et al., 2018). 
In addition, anecdotal evidence from the present study (e.g., comments left 
at the end of the self-assessment) suggests that some online test takers who 
identified themselves as international students were looking up vocabu- 
lary to understand the test instructions and math problems. Accordingly, 
the extent to which (a) the self-test is well-suited for non-native speakers of 
German and (b) its validity may be affected by the students’ language profi- 
ciency should be explored in future research. 

Third, the mode of participation—online or in-person—did not seem to 
have a large effect on students’ test engagement and performance (i.e., close- 
to-zero and nonsignificant correlations), except for a significant effect on 
students’ behavioral engagement. Online participants were significantly less 
likely than in-person test-takers to complete the self-assessment. As noted in 
the introduction, previous research has documented significant differences 
in the frequency and quality of students’ self-testing participation between 
in-class and (unsupervised) web-based self-testing opportunities (Daniel & 
Broida, 2004; Kibble, 2007). In the present study, both in-class and online 
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participation was typically supervised which may be why the observed dif- 
ferences between modes of participation were rather small. Cheating is also 
a cause for concern when tests are implemented online. As mentioned pre- 
viously, Kibble (2007) observed that cheating was much more likely during 
unsupervised online quizzes when the test outcome was incentivized. The 
math self-assessment in the present study was presented as a practice and 
self-evaluation opportunity and did not have any stakes attached for indi- 
vidual students. Nevertheless, we cannot preclude the possibility that online 
participants had access to information that was not available to in-person 
participants, such as sporadic internet searches. Therefore, the mode of par- 
ticipation and possible incentives should be considered carefully in future 
research or applied settings (for a discussion of different design possibilities, 
see Chevalier et al., 2018). 


5.2. Students’ Prior Achievement, Math-Related Motivation, and 
Test-Specific Beliefs 


Consistent with our expectations, students with lower levels of prior achieve- 
ment and math-related motivations were significantly less likely to complete 
the assigned math self-assessment, were less engaged while taking the test, 
and had lower levels of test performance. These differences emerged even 
though the self-test was administered during class time, its administration 
was supervised by the course instructors and research assistants, and the 
tested content was rated, on average, as highly relevant to the students’ fields 
of study by the test-takers. 

First, students’ prior achievement (i.e., their high school GPA, final 
math grade, and AP math course attendance) and ability-related beliefs (i.e., 
domain-specific and test-specific math self-concepts of ability) were among 
the strongest predictors of their behavioral engagement and test performance. 
This finding suggests that researchers need to be mindful of the level of chal- 
lenge students with different ability levels are facing when asked to work on a 
given self-assessment or test (Anaya et al., 2022; Penk & Schipolowski, 2015). 
Evidence suggests that confronting students with difficult test questions at 
the beginning of a given test may result in decreased test-taking motivation 
for subsequent test items and, consequently, in a less accurate estimate of 
students’ ability. Using two large data sets—a field experiment and data from 
an international large-scale assessment—Anaya et al. (2022) demonstrated 
that ordering the questions within a given test from easiest to most diffi- 
cult reduced the number of test dropouts and increased the proportion of 
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correct responses. Moreover, students who work on easier math problems 
before they reach more difficult ones, tend to develop more positive ability 
self-evaluations even when there are no differences in performance (Bard & 
Weinstein, 2017). Accordingly, students in the present study who had less 
positive academic characteristics may have perceived the self-assessment as 
too challenging, which may have diminished their test-taking motivation 
and engagement during the test. This evidence calls for further analyses of 
how the test difficulty and the order in which math problems with different 
levels of difficulty are presented may affect the performance of test-takers 
with varying levels of prior ability and motivation. 

Notably, second, even when differences in students’ prior achievement 
and self-concepts of ability were controlled for, students’ math interest 
emerged as a potent predictor of students’ test engagement, which, in turn, 
predicted their test performance. Specifically, higher levels of students’ math 
interest prior to self-testing corresponded to a higher quality of engagement 
during the self-testing session and were the strongest predictor of students’ 
perceived test utility, affective engagement, and cognitive engagement. 
Moreover, students’ affective engagement and test-specific self-concept of 
ability emerged as the strongest predictors of students’ behavioral engage- 
ment and both had significant incremental predictive effects on students’ 
test performance. This finding is not trivial, as prior research suggests that 
students’ interest in participating in low-stakes math assessments tends to 
be rather low (e.g., in representative samples) and that students’ test-specific 
interest can have limited predictive validity for students’ test performance 
(Penk & Schipolowski, 2015). In the present study, however, the participants 
evaluated the math self-assessment quite positively, which is an important 
prerequisite for its use in authentic educational contexts. This difference, 
relative to prior research, may be because our sample included students who 
had chosen to study a math-intensive subject and the tested math content 
covered relevant math prerequisites for their chosen field of study (i.e., the 
test had high face validity). 

Finally, students’ affective engagement during the test—i.e., their interest 
and enjoyment of working on their assigned math problems-was a positive 
predictor of the overall number of math problems students chose to work 
on and how well they did on these problems even when differences in prior 
achievement as well as domain- and test-specific achievement-related beliefs 
were controlled for (e.g., students’ test-specific ability self-concepts). This 
finding underscores the importance of taking into account not only achieve- 
ment-related but also affective-motivational differences between students to 
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better understand corresponding differences in students’ test-taking behav- 
iors and performance. 


5.3. Limitations 


Several limitations must be acknowledged in the interpretation of our find- 
ings. First, as noted in the introduction, digital and in-class self-assess- 
ments can be used in different ways. These include using self-assessments 
as a self-evaluation instrument designed to identify relevant knowledge gaps 
and thus support students’ self-regulated learning, a practice opportunity 
that activates prior knowledge and supports students’ long-term retention of 
practiced content, and an information and monitoring tool designed to help 
students monitor their learning progress (e.g., in preparatory math courses). 
The WINT-Check, in particular, can be used either as an overall test of 
math prerequisites for studying in a STEM field, or its subscales and tailored 
e-learning units can be used as separate stand-alone learning and assessment 
modules. Furthermore, students can use the WINT-Check and other open 
educational resources independently or in the context of (math) courses in 
their respective study programs. Given these varied possibilities, a limitation 
of our study is that we focused on only one of these possible uses, namely, 
as a self-evaluation and self-reflection tool in a single supervised session. As 
noted in the introduction, students’ test engagement may vary for different 
types of use, and students’ participation and test engagement may be lower if 
their self-testing is not supervised. 

Second, the main objective of our study was to conduct exploratory anal- 
yses of interindividual differences in students’ test-taking behaviors and 
performance. However, although our findings are largely consistent with 
our expectations and prior evidence, our use of correlational data limits our 
ability to draw causal inferences about the role of students’ test engagement 
in shaping their test performance. To address this limitation, future research 
may incentivize students’ use of self-testing as a means to increase their test 
engagement and use random assignment to different types of incentives to 
allow for causal analyses. 

Finally, our analyses focused on a single self-testing session and we used 
a multimatrix design to cover all relevant math prerequisites across different 
test booklets. Consequently, we were unable to examine how students’ test 
engagement may change over time, and whether exposure to different types 
of content over time may affect students’ test-taking behaviors and perfor- 
mance. This is an important avenue for future research. 
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5.4. Conclusions and Outlook 


Our analyses demonstrate that the WINT-Check is a promising open educa- 
tional resource that can support students’ self-evaluation of math prerequisites 
for math-intensive study programs. The self-test has high face validity, as 
rated by students currently enrolled in such programs, and students’ overall 
willingness to complete their assigned math problems was relatively high (i.e., 
high overall completion rates). However, our analyses also revealed notable 
heterogeneity in students’ level of test engagement in terms of their subjec- 
tive evaluations of the tested math content (e.g., motivation while working 
on the math problems) and test persistence (e.g., the proportion of seen but 
unanswered questions), as well as students’ test performance. These differ- 
ences systematically favored male and higher-achieving students, students 
who were native speakers of German, those who participated in self-testing 
in class rather than online, and those with more positive math achievement 
and math-related motivations before self-testing. Notably, students with lower 
levels of prior achievement and math-related motivations were significantly 
less likely to complete the assigned math self-assessment, were less engaged 
while taking the test, and had lower levels of test performance. Targeted efforts 
to support such students are needed and may involve, for instance, adjusting 
the level of challenge to better match students’ prior achievement, by using 
adaptive testing, and by embedding the self-testing sessions in existing courses 
and academic counseling opportunities. 
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Abstract 


Self-regulated learning (SRL) is an important facilitator of students’ aca- 
demic success in post-secondary education. We provide an overview of 
the growing literature that uses digital trace data to investigate students’ 
study behaviors and SRL in post-secondary institutions. Digital trace data 
such as (changes in) click activity obtained from learning management 
systems (LMS; e. g., Moodle, Ilias, or Canvas) can be a useful indicator 
of SRL regarding students’ time management and aspects of monitoring 
behavior. Whereas broad measures of study activities in online environ- 
ments, such as the number of clicks and time spent on course activities do 
not consistently predict performance, more fine-grained measures, such 
as number of clicks before deadlines in courses or using voluntary quizzes 
to monitor learning, can identify adaptive self-regulated learning strate- 
gies. Hereby, information about course design and context is essential for 
creating such SRL measures. In addition, multi-source data (e. g., digital 
traces and self-reported learning strategies) are needed to capture not only 
behavioral but also motivational and meta-cognitive aspects of SRL. In this 
study, we provide an illustrative example of the type of digital trace data 
that can be collected via LMS to predict students’ academic success using 
data from the ongoing longitudinal UCI-MUST project. 


Keywords: self-regulated learning; digital trace data; post-secondary 
education; empirical longitudinal data; course performance 
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Zusammenfassung 


Selbstreguliertes Lernen (SRL) ist ein wesentlicher Prädiktor für akademi- 
schen Erfolg in postsekundärer Bildung. Das Kapitel gibt einen Überblick 
über aktuelle Studien, die digitale Verhaltensspurdaten zur Untersuchung 
von Lernverhalten und SRL von Studierenden nutzen. Digitalen Verhal- 
tensspuren, die zumeist von Lernmanagement Systemen wie Moodle, Ilias 
oder Canvas gewonnen werden, eignen sich insbesondere für die Untersu- 
chung des Zeitmanagements oder der Selbstevaluation von Studierenden 
als zentrale Aspekte von SRL. Dabei zeigt sich, dass quantitative Maße 
von Lernverhalten, wie die gesamte Anzahl an Klickaktivitäten oder die 
Dauer die Studierende auf einem online Kurs verbringen eher moderate 
Prädiktoren von Kursleistung darstellen. Spezifischere Maße von SRL, wie 
z.B. Veränderungen im Klickverhalten von Studierenden vor Deadlines 
oder die Nutzung regelmäßiger freiwilliger Testfragen zur Überprüfung 
des Lernzuwachses sind hingegen vielversprechendere Maße um adaptive 
und erfolgreiche SRL Strategien zu erfassen. Hierbei sind detaillierte Infor- 
mationen über den Kursablauf und -kontext zu berücksichtigen. Um neben 
diesen vornehmlich deskriptiven Maßen von SRL auch internale SRL Pro- 
zesse identifizieren zu können, sollten zusätzlich zu digitalen Verhaltenss- 
puren auch Selbstberichtdaten zu motivationalen und meta-kognitiven SRL 
Elementen erhoben werden. Neben einem Überblick über aktuelle Studien 
nutzen wir Daten der UCI-MUST Studie, um ein Beispiel zur Verwendung 
von digitalen Verhaltensspuren zur Beschreibung von Lernverhalten und 
zur Vorhersage von Kursleistungen von Studierenden zu geben. 


Schlagworte: Selbstreguliertes Lernen; digitale Verhaltensspurdaten; 
postsekundäre Bildung; empirische längsschnittliche Daten; Kursleistung 


1: Introduction 


The ability to plan, monitor, and adjust one’s own study activities is important 
for students learning success. Particularly in higher education, where learn- 
ing environments are less structured than in secondary school, and students 
are afforded more autonomy to choose their courses and structure academic 
activities, self-regulated learning (SRL) skills, such as planning, monitoring, 
and adjustment of study behaviors, are particularly important predictors of 
students’ academic success (Broadbent & Poon, 2015; Zimmerman & Schunk, 
2011). The challenging years since the outbreak of the COVID-19 pandemic 
have further shown that SRL-skills are central facilitators of college students’ 
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academic success (Berger et al., 2021; Juriševič et al., 2021). The closure of 
university campuses and the shift to remote learning during the pandemic 
drastically changed the learning environments of college students. While 
structures such as synchronous face-to-face classes, libraries, or study groups 
on campus were no longer available, students had to develop new study rou- 
tines with remote learning activities. Learning management systems (LMS), 
such as Moodle, ILIAS, and Canvas, are designed to facilitate teaching and 
learning and have become a central element of instruction in post-secondary 
education settings. During the pandemic, LMS provided a key platform for 
remote teaching and learning (e. g., for sharing study materials, assignments, 
and videotaped classes). Moreover, LMS also provide new and promising 
approaches to investigate students’ SLR and learning outcomes in authentic 
educational contexts. For example, through observations of students’ authen- 
tic interactions with study materials provided via LMS and their study behav- 
iors such as time management, adherence to deadlines, and click activities. 
Self-regulation research has a long tradition of using self-report data to 
investigate students’ SRL (e. g., Pintrich et al., 1991; Weinstein & Palmer, 
2002). An advantage of such self-reported data is that they can capture inter- 
nal cognitive, motivational, and affective processes that are not directly 
observable in students’ behavior (e. g., aspirations and goals, elaboration 
strategies, outcome expectations, or anxiety and enjoyment during study 
activities). Furthermore, surveys with established SRL instruments can be 
administered at relatively low costs and can be applied to any educational 
context (Wolters & Won, 2018). However, students’ self-reports of their study 
behaviors and learning strategies can be subject to various reporting biases, 
for instance, due to insufficient memory or the elicitation of socially desir- 
able responses (Baker et al., 2020). Accordingly, self-regulation researchers 
often rely on multiple data sources to obtain a more comprehensive and pre- 
cise assessments of SRL. Since the implementation of LMS in educational 
contexts, SRL researchers increasingly use digital trace data from these LMS 
to examine students’ learning behavior in different courses (Baker et al., 
2020; Crompton et al., 2020; Li et al., 2020). Different measures, such as the 
number of clicks, number of study sessions, or time spent in a course per 
day can be used to quantitatively describe students’ study behaviors, engage- 
ment, and learning patterns in a given course. In this chapter, we provide an 
overview of the growing literature on digital trace data that can be obtained 
via LMS to investigate students’ learning behavior and success. In particular, 
we focus on studies using digital trace data to measure students’ SRL behav- 
iors in post-secondary education, and we outline some of the key advantages 
and challenges of using such data in SRL research. Second, we use data from 
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the ongoing longitudinal UCI-MUST project (Arum et al., 2021) to provide 
an illustrative example of the type of digital trace data that can be collected 
via LMS to predict students’ academic success and potentially aid their SRL. 


2.  Self-regulated Learning in College 


In post-secondary education, students are often required to navigate a chal- 
lenging curriculum and organize their study activities in several courses that 
they take simultaneously. Thus, SRL is a central skill that facilitates learning 
and success in post-secondary education (Broadbent & Poon, 2015). SRL 
entails multiple cognitive, motivational, behavioral, and affective components, 
and existing theoretical models on SRL describe and integrate these compo- 
nents in somewhat different ways. Boekaerts (1999), for instance, describes 
a set of skills and resources that are central to self-regulated learning in a 
multi-layered model, whereas Zimmerman (1990) describes SRL as a cycli- 
cal process where learners use different sets of SRL skills and behaviors in a 
structured and recurrent manner. Boekaerts’ multi-layered model suggests 
that SRL behaviors unfold on different levels of proximity to the learning 
content. These include the choice of adaptive cognitive strategies to process 
the learning material, the use of meta-cognitive strategies to regulate the 
learning process, and the choice of suitable goals and recourses to facilitate 
learning in specific environments (Boekaerts, 1999, 2010). Process models, by 
comparison, describe three central elements of self-regulated learning that 
occur cyclically: (a) forethought, (b) performance and volitional control, and 
(c) self-reflection (Zimmerman, 1990). The phase of forethought or planning 
entails the setting of specific learning goals and the selection of learning 
strategies. The second phase of performance and volitional control requires 
students to apply the selected learning strategies and monitor and control 
their learning process. The phase of self-reflection includes self-evaluation 
and causal attribution of the learning outcomes, for instance, to factors that 
are internal and controllable or external and not controllable by the student, 
and informs subsequent planning phases (Zimmerman, 1990; Zimmerman 
& Schunk, 2011). 

Although both theories emphasize different aspects of SRL, they have a 
large overlap in terms of the described cognitive, meta-cognitive, motiva- 
tional, and behavioral skills that are essential to SRL. Depending on the cho- 
sen theoretical framework, empirical SRL research often focuses either on 
cyclical aspects of SRL behaviors or on specific cognitive and meta-cognitive 
skills and strategies of learners. Extensive literature shows that students with 
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higher SRL skills attain better learning outcomes and are more successful 
in college (Broadbent & Poon, 2015; Dörrenbächer & Perels, 2016; Kitsan- 
tas et al., 2008; Zimmerman, 1990). Most of this literature used well-estab- 
lished survey instruments to measure students’ SRL (e. g., Motivated Strat- 
egies for Learning Questionnaire - MSLQ: Pintrich et al., 1991; Learning 
and Study Strategies Inventory - LASSI: Weinstein & Palmer, 2002). Over 
the past years, however, there has been growing interest in the use of digital 
trace data from LMS, besides established survey instruments, as a means to 
investigate SRL (Arizmendiet al., 2022; Bernacki et al., 2020; Cogliano et al., 
2022). Such behavioral trace data provide complementary data on students’ 
study behaviors, in addition to their self-reports. However, an open question 
that warrants careful consideration concerns the interpretability of digital 
trace data as an indicator of central SRL components, such as cognitive and 
meta-cognitive skills described by Boekaerts (1999; 2000), or cyclical aspects 
of SRL behavior described by Zimmerman (1990; 2011). 


2.1. Measuring Self-regulated Learning with Digital Trace Data 


Digital trace data from learning management systems capture students click 
activities in log files and, thus, such data allow capturing students’ study 
behavior in authentic contexts (Arizmendi et al., 2022; Bernacki et al., 2020; 
Crompton et al., 2020). Digital traces of students’ study behaviors provide 
an opportunity to measure certain aspects of self-regulated learning, such 
as time management, regularity of study efforts, and self-testing (e. g., using 
voluntary quizzes or assignments to test one’s knowledge of course contents). 
Other central elements of self-regulated learning that do not manifest directly 
in observable behavior, such as goal-setting, cognitive strategy use (e. g., elab- 
oration of learning material), and emotion regulation are comparatively more 
difficult to measure with such data (Bernacki, 2018). Current research can 
be categorized broadly into a) studies that focus on global measures of study 
behavior, such as the overall number of clicks and time spent on courses, and 
b) studies that investigate specific aspects of self-regulated behavior, such as 
active planning behavior, cramming versus spacing, self-testing behavior, 
help-seeking behavior, and others. The main interest of this chapter is to 
provide an overview of different approaches that have been used to measure 
students’ learning behaviors and different aspects of SRL with digital trace 
data. The main objective of this chapter is not to provide an exhaustive review 
of the existing literature, but rather to review recently developed and applied 
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approaches to measuring central aspects of SRL behaviors with digital trace 
data in post-secondary education settings. 


3. Links Between Digital Trace Data and Self-regulated 
Learning Behaviors in Post-secondary Education 


3.1. Global Measures of Study Behavior Based on Digital Traces 


Several relatively global measures of study behavior can be obtained from 
digital traces in learning management systems (LMS). Commonly used global 
assessments include students’ overall number of clicks when using the course 
site via the LMS, time spent navigating through and interacting with course 
material online, and the number of online study sessions in a course (Baker et 
al., 2020; Cicchinelli et al., 2018; Greene et al., 2021). Such measures describe 
the quantity of students’ study actions but do not capture the quality or type 
of study actions. Nevertheless, such measures can predict desirable learning 
outcomes. For instance, Cicchinelli etal. (2018) found that first-year students 
in a computer science program who produced more clicks overall had more 
study sessions, had longer durations of interacting with the course site in the 
online LMS that was used for their lecture, and attained better grades in quiz- 
zesand final exams in thelecture. Similarly, in a distance-learning university 
in the UK, Nguyen et al. (2020) investigated the associations between the time 
students spent on their courses online and their course performance. Using 
data from roughly 150,000 students, they showed that students who spent 
more time studying for their courses - as inferred by how much time they 
spent interacting with course contents on LMS - were more likely to pass their 
exams and obtained better grades. While these associations were observed for 
all students in the courses, Nguyen et al. (2020) described differences in study 
activities for students with different demographic backgrounds. On average, 
female students spent more time on their college courses on LMS compared 
to their male peers, whereas students from underrepresented ethnicities spent 
less time on LMS course content and obtained lower course grades. Authors 
provide different explanations for these results: Students of underrepresented 
minorities might have competing obligations, such as work in addition to 
studying, that could constrain their available time and resources for studying. 
In addition, these students might lack knowledge about effective study and 
SRL strategies and may therefore show less adaptive study behaviors. 

Broad measures, such as the number of clicks, study sessions, and time 
spent on a course provide additional insights into students’ self-regulated 
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learning when observed on a daily or weekly aggregation level across a course. 
With such measures, researchers can investigate changes in the number of 
study activities across specific time periods, the regularity, and the fluctu- 
ation in students’ study activities. Park et al. (2017), for instance, identified 
three patterns of changes in students’ click activities across the duration of 
an online and a face-to-face course with LMS at a public university in the US. 
They categorized students’ study behaviors into “increasing click activity,” 
“no change,” or “decreasing click activity” across the courses. Students who 
had an increasing pattern of click activity across the course were more likely 
to pass the course than students who had a decreasing pattern. Focusing on 
students’ weekly click activity in a course where students regularly received 
tasks on Mondays with a submission deadline on Fridays, Park et al. (2018) 
showed that students with a more regular click pattern working on the tasks 
throughout the week obtained better course grades compared to students 
who had increased click activity only shortly before the deadline on Fridays. 
These studies suggest that students who maintain more regular and contin- 
uous study activities tend to attain better performance outcomes. 

While the above-mentioned studies reported positive associations 
between broad measures of study activities on LMS and course performance, 
other studies suggest no or only very small positive associations between 
the overall number of click activity and time spent on the course sites with 
course performance outcomes (see, e. g., Greene et al., 2021, You et al., 2016). 
Mixed findings could be explained by different course designs and types of 
use of LMS by the instructors. Furthermore, mixed findings could be related 
to different levels of granularity of behavioral trace measures ranging from 
variables on the course level (e. g., time spent on the course across the entire 
semester (Nguyen et al., 2020), daily click activities across the entire semester 
(Park et al., 2017), or daily click activities per week (Park et al., 2018)). Deci- 
sions about the level of aggregation of behavioral trace data should be driven 
by the research question and available information about the course context. 
For instance, only if information about the course design and course dead- 
lines is available, researchers can meaningfully interpret increases in study 
activities before certain dates or can derive measures such as ‘time to a dead- 
line’ to investigate aspects of students’ time management in their courses. 
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3.2. SRL-specific Measures of Study Behavior Based on Digital 
Traces 


Digital trace data can also be used to infer specific types of self-regulated 
behaviors, as conceptualized by Boekaerts (1999, 2010) and Zimmerman 
(1990, 2000). These include, for instance, measures of time management and 
regularity of study activities that can be linked to cyclical processes of SRL 
(Zimmerman, 1990; 2000), and to the successful use of meta-cognitive strate- 
gies to regulate learning processes (Boekaerts, 1999; 2010). Furthermore, such 
measures can describe the use of specific meta-cognitive strategies, such as 
help-seeking behaviors, monitoring of learning outcomes with self-tests and 
quizzes or monitoring performance outcomes through accessing grade books 
in a course. We provide an overview of studies that used such measures in 
the following sections. 


Time Management and Procrastination Measured with Digital Trace 
Data 


When relevant information about the course context and course design is 
available, researchers can generate more SRL-specific variables with students’ 
digitaltrace data to investigate SRL and performance in college courses. Infor- 
mation about deadlines and due dates, for example, can be used to generate 
measures for procrastinating behaviors (Li et al., 2020; Rodriguez et al., 2021). 
Such measures can include the time between the submission of an assign- 
ment and the submission deadline and the proportion of assignments and 
content material accessed before versus on a due date. Using such measures 
of self-regulated behaviors from an online college course, Li et al. (2020) 
showed that students who proportionally accessed more study units before 
the due date than on the due date, and who submitted assignments longer 
in advance of the deadline, were students who obtained better final course 
grades. Similarly, Rodriguez et al. (2021) investigated whether regular access 
versus irregular and delayed access of lecture videos predicted final course 
grades in an asynchronous online course. The course contained 48 short 
lecture videos divided into four modules. In each module, students needed to 
watch the corresponding lecture videos in a pre-specified order until a specific 
due date. Rodriguez et al. (2021) identified four clusters of study behaviors 
with students who a) watched nearly all videos before the due date (early plan- 
ners), b) watched most videos before the due date and only a few on the due 
date (planners), c) watched most videos on the due date (procrastinators), and 
d) watched only a few videos and all of them late (low engagers). Students who 
were ‘early planners’ and ‘planners’ obtained better course grades than their 
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peers who were identified as ‘procrastinators’ or ‘low engagers’. Rodriguez et 
al. (2021) further investigated if students with certain background character- 
istics were at particular risk for belonging to a cluster with maladaptive study 
patterns (i. e., procrastinators or low engagers). Results showed that students of 
low-income families and first-generation college students more often had low 
engagement patterns in their courses, compared to their peers, and obtained 
lower grades in their courses. 


Monitoring and Self-evaluation Measured with Digital Trace Data 


Digital trace data can also be used to identify study behaviors that are related 
to planning, monitoring, and self-evaluation, depending on what supplemen- 
tal information is available about the course (see, e. g., Greene et al., 202]; 
Huang et al., 2022). For instance, students’ use of course calendar functions 
and visits of course modules that show the course syllabus at the beginning 
of the course and before course exams can provide information about plan- 
ning behaviors. Course syllabi are required for each college course in the 
US and typically provide information about course activities, requirements, 
and grading policies in the course. Students’ completion of voluntary quiz- 
zes in the course (i.e., opportunities to self-test course content and evaluate 
knowledge gaps or learning gains) can indicate monitoring of the learning 
progress. Students’ regular access of (online) performance feedback from 
the instructors and gradebooks can indicate self-evaluation practices. Latent 
profile analyses have been used to investigate to what extent students show 
planning, monitoring, and self-evaluating behaviors when they use course 
materials provided via LMS (Greene et al., 2021; Hong et al., 2020; Huang et 
al., 2022; Li & Baker, 2018). Students who regularly participated in ungraded 
and/or voluntary quizzes attained higher course grades than their peers who 
showed less quiz-taking behavior (Carvalho et al., 2022; Ifenthaler et al., 
2022; Huang et al., 2022; Li & Baker, 2018). A possible explanation provided 
by the authors is that students who regularly participated in the quizzes were 
thus able to monitor their learning progress and adjust learning strategies 
as needed. Greene et al. (2021), for instance, used data from 408 students 
enrolled in a biology class. They used latent profile analysis to identify SRL 
behaviors related to planning activities (e. g., accessing the course syllabus 
and using the course calendar, as well as reading announcements), informa- 
tion acquisition (e. g., attending class meetings, accessing additional course 
readings), and help-seeking (e. g., reaching out for help, clicking on links to 
learning support services). Students who showed more planning activities and 
information acquisition obtained better course grades than their peers. Sim- 
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ilarly, Hong et al. (2020) used latent profile analysis to investigate if students 
predominantly used SRL strategies related to planning (by visiting the course 
syllabus and study guides), monitoring of their learning progress (by taking 
regular exercises and quizzes), and monitoring and evaluating their perfor- 
mance (by visiting their gradebooks). The sample consisted of digital trace 
data from 1,326 college students in biology classes at a mid-western university 
in the US. Most students showed little planning and monitoring behaviors. 
About 15% of the students showed more planning behaviors and frequently 
monitored their performance by visiting the course gradebook. About 10 % 
ofthe enrolled students frequently monitored their learning through quizzes. 
Students who regularly showed behaviors related to monitoring their learning 
and performance through quizzes and gradebooks outperformed their peers 
and obtained higher final course grades. These findings indicate that students 
who showed more study activities that can be linked to critical aspects of SRL 
were more successful in their courses. 

However, the above-described findings derived from digital trace data 
remain on a rather descriptive level of observable study behavior and associ- 
ations with desirable performance outcomes. An open question is, whether 
students enact certain study behaviors, such as regular completion of self- 
tests and quizzes, because they are encouraged or required to do so by 
their instructor (i.e., externally regulated behavior), or because they volun- 
tarily and purposely used this strategy to monitor their learning progress 
(i.e., self-regulated behavior). Furthermore, these studies did not examine 
whether students’ SRL activities related to monitoring and self-evaluation 
were predictive of subsequent changes in study behaviors and course perfor- 
mance. A promising approach to further distinguish between self-regulated 
and externally regulated study activities in (online) course environments is 
to combine behavioral trace data with (a) self-reported SRL behaviors, and 
(b) pertinent information about students’ learning context (e. g., course 
requirements). The combination of different sources of information about 
students’ study activities would enable analyses of whether students’ study 
behaviors, as observed via digital trace data, are driven by students’ SRL 
skills and purposefully selected learning strategies, by course requirements, 
or by a combination of both. 
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Linking Students’ Self-reported SRL with Digital Trace Data 


Hence, a relevant question for SRL researchers is to what extent self-reported 
data and digital trace data on self-regulation overlap, diverge, or complement 
each other in predicting performance and improving our understanding of 
SRL in authentic contexts (Baker et al., 2020; Bernacki, 2018). Some of the 
above-mentioned studies used digital trace data and survey data to investigate 
students’ SRL behaviors in post-secondary education. Results on correlations 
between self-reported SRL skills and SRL behaviors measured with digital 
trace data are mixed. Huang et al. (2022) showed that both self-reported 
self-efficacy and the use of metacognitive strategies (i. e., planning and mon- 
itoring) measured with digital trace data predicted course grades. However, 
the two types of measures were not significantly correlated. Similarly, Cicchi- 
nelli et al. (2018) found no significant correlations between students’ self-ef- 
ficacy and overall study activity, time spent on coursework, and monitoring 
and planning activities. However, they found moderate positive correlations 
between students’ self-reported self-regulation skills and self-regulation mea- 
sures derived from digital trace data. Li et al. (2020) assessed self-reported 
self-regulation skills with surveys at the beginning (T1) and end (T2) of a 
quarter. Time management measured with digital trace data in online lectures 
correlated positively with self-reported self-regulation skills measured only 
at T2. Ifenthaler et al. (2022) focused on self-testing strategies and found that 
students who reported using more self-testing strategies in their courses also 
engaged in more self-assessment tasks in the LMS of their course. Although 
not entirely consistent, these findings point to positive associations between 
self-reported data and digital trace data on SRL skills. A key factor that may 
contribute to these inconsistencies is the timing of measurement and the level 
of generality of different types of measures. For instance, students’ self-re- 
ported broader motivational beliefs such as generalized academic self-efficacy 
(Cicchinelli et al., 2018; Huang et al., 2022) and self-reported SRL assessed 
before their course had started (Li et al., 2020) are often not significantly 
related to students’ digital trace data collected during the semester. In contrast, 
when students report on their SRL after they have already participated in the 
course for a few weeks, the associations between students’ self-reported SRL 
and their digital trace data tend to be stronger (Cicchinelli et al., 2018; Li et al., 
2020). These findings indicate that the time point and specific aspects of SRL 
(e.g., self-testing to monitor learning progress) measured with self-reported 
data and digital trace data should be aligned when these measures are being 
used complementarily. 
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4.  Self-regulated Learning in College: An Illustrative Example 
of Using Digital Trace Data 


In the second part of this chapter, we provide an example of how digital trace 
data can be used to describe students’ study behaviors over time. Based on a 
collaboration between TU Dortmund and the University of California, Irvine, 
we were able to use data from the UCI-MUST project (Arum et al., 2021), an 
ongoing longitudinal study to examine undergraduates’ experiences and fac- 
tors that facilitate college success. We used data from undergraduate students 
who were enrolled in two large biology lectures in the fall of 2020 and were 
using course materials that were provided to them via LMS. Importantly, all 
students were studying remotely due to the COVID-19 pandemic and the 
social distancing rules that were in place at that time. Consequently, the LMS 
used at the time includes rich data on students’ digital traces and learning 
behaviors. We focused on a selected subsample of students and examined the 
pattern of students’ study activities across the ten weeks of the academic fall 
quarter. Our analyses focus on three key research questions: 


1. Is variability in study activities on LMS across the quarter associated 
with critical course events (i.e., midterm exams)? 

2. Are global and week-specific measures of study activities on LMS 
across the quarter associated with students’ demographic back- 
ground variables and final course grades? 

3. Is students’ self-reported self-efficacy for self-regulated learning 
related to their study activities on LMS across the quarter? 


4.1. Sample and Procedure 


We used data from N1 = 805 undergraduate students who were enrolled in 
two large biology lectures in their junior year in the fall term of 2020. These 
biology lectures are usually face-to-face lectures and instructors use the LMS 
Canvas to provide course materials and assignments. In the fall term of 2020, 
the lectures were shifted to a fully remote format because of the COVID-19 
pandemic. Canvas was used to provide lecture content and administer assign- 
ments and midterm exams. The sample consisted of a diverse student popula- 
tion with 44 % first-generation college students, 25 % students who belonged 
to a historically underrepresented minority (Latino, African American, Pacific 
Islander), and 67 % female students. We used different data sources to examine 
the proposed research questions. 
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Digital Trace Data. We used the overall number of clicks each student 
used per day in their Canvas course as a quantitative measure of study activ- 
ity. This measure includes, for example, clicks on course materials, down- 
loads of course material, uploads of assignments, and completion of quizzes 
and midterm exams. First, we aggregated daily click activities on a weekly 
level per student. Second, we centered students’ weekly click activities at the 
course mean to remove between-course variance in the two biology lectures 
(within-course centering), and thus created comparable study activity mea- 
sures in both lectures. We decided to aggregate daily click activities on a 
weekly level for two reasons: First, we were interested in the variability in stu- 
dents’ click activity across the entire term and during significant week-spe- 
cific course events (midterm and final exams). Second, the two lectures had 
the same structure and exams happened in the same weeks, but lectures and 
exams took place on different weekdays. Aggregation of click activities on a 
weekly level thus improved comparability of the two courses. 

Course Syllabi. Course syllabi are detailed course plans that were avail- 
able for both lectures. We used the course syllabi to identify the dates of 
midterm exams. In both lectures, midterm exams took place in weeks 3, 6, 
and 9 of the fall term of 2020. 

Administrative Data. Data on students’ demographic backgrounds 
and final course grades were obtained from students’ college records. We 
used dichotomous variables as indicators of students’ first-generation col- 
lege-going student status (1 = yes; 0 = no), if students belonged to a histor- 
ically underrepresented minority (URM) on campus (1 = yes; 0 = no), and 
about students’ biological gender (1 = female; 0 = male). Administrative data 
included an option ‘other’ to declare students’ gender, but all students in 
the present sample had a record of either female or male gender. Further- 
more, we used high school grade point average (GPA) as an indicator of prior 
achievement. We used final grades as an indicator of course performance. 
Students received letter grades (A - F) in both lectures. We transformed the 
letter grade to a numeric variable (A = 12 to F = 0), with higher values indi- 
cating better performance. 

Survey Data. A small subsample of the 805 students in the selected 
biology lectures participated in surveys during the UCI-MUST project. In 
the UCI-MUST project, more than 1.200 undergraduates from all fields of 
study consented to participate in the survey study of the project. Of those, 
25 students were enrolled in the two biology lectures that are presented in 
the illustrative example of this chapter. These students completed a survey 
at the beginning of the fall 2020 quarter that included questions about their 
self-efficacy for self-regulated learning (T1; N2T1 = 25), and 18 of these stu- 
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dents completed the same questions again after the fall term of 2020 (T2; 
N2T2 = 18). We used five items to measure self-efficacy for self-regulated 
learning that were based on the self-efficacy scale by Farr et al., (2011). Two 
example items are: “How good are you at motivating yourself to do school- 
work” and “How good are you at finishing your homework assignments by 
deadlines”. Students responded to the items on a slider scale from 0 - not at 
all good to 100 - exceptional. Because of the very small sample sizes, we treat 
findings of analysis with survey data as preliminary suggestive evidence that 
needs to be extended and continued with larger samples. 

We used descriptive statistics and correlative analyses to describe the 
pattern of study activities across the quarter and the associations of study 
activities with demographic variables, course grades, and self-reported 
self-efficacy for self-regulated learning. 


4.2. Results 


Associations of Variability in Click Activities Across the Quarter with 
Critical Course Events (RQ1) 


On average, students had 27 action counts on each day in a week in their 
course. A large standard deviation and a large range from minimum to max- 
imum action counts per day indicate large variability in click activity across 
days of the quarter (min = 1, max = 734, M = 26.92, SD = 28.29). Figure 1 
shows the pattern of click activity on a weekly level across the fall 2020 quarter. 
Overall, the pattern shows a small decline in click activities across the 10 weeks 
of the quarter with large increases in click activities in weeks 3, 6, and 9 com- 
pared to the mean click activity in the course, and decreased click activities in 
weeks 4, 5, 7, 8, and 10. Information from available course syllabi explained 
these fluctuations in click activities across the week: Click activity increased 
in weeks of midterm exams (weeks 3, 6, and 9), and decreased in weeks after 
the midterm exams. This finding emphasizes the importance of using relevant 
context information about the courses. Information on relevant deadlines and 
exams is central for a meaningful interpretation of study patterns. 


141 


Figure 1: Behavioral trace data from two biology lectures in fall 2020. N1 = 805 
undergraduate students. Within-course centered action counts per day aggregated on 
a weekly level. Error bars indicate standard errors. 
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Associations of Click Activities with Students’ Demographic 
Background and Course Performance (RQ2) 


In a second step, we explored associations of click activities across the quar- 
ter with students’ demographic backgrounds and their course performance. 
Table 1 shows the results of bivariate correlations of these variables. Overall, 
click activities differed only slightly by students’ demographic backgrounds. 
Female students had slightly more click activities across the quarter (small 
positive correlations of female gender with fall 2020 overall study activity 
r = .09; and with study activity in weeks 1, 4, 5, 6, and 10 r = .07 tor =.11). 
Students of an underrepresented minority had slightly lower study activity 
in weeks of the midterm exams (r = -.10 to r = -.13). First-generation and 
continuing-generation college students did not differ systematically in their 
click activities across the quarter. Furthermore, high school GPA was not 
significantly associated with click activities during the quarter. 

Students’ final course grade had a small positive correlation with stu- 
dents’ overall click activity across the quarter (r = .15) and small positive 
correlations in several weeks of the quarter (weeks 2 to 4: r = .11 to r = .17; 
weeks 6 to 9: r = .12 to r = .14). Hence, click activity in the weeks of the mid- 
term exams, as well as the weeks before and after the midterm exams was 
significantly correlated with students’ final course grades. 
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Table 1: Bivariate correlations of within-course centered action counts per week with 
demographic variables and final grade. 


f20 week week week week week week week week week week 

action 1 2 3 4 5 6 7 8 9 10 
count action action action action action action action action action action 
counts counts counts counts counts counts counts counts counts counts 


Female 0,09 0,08 004 004 0,09 0,07 0,07 0,14 0,06 006 0,07 


Underrepresented 
minoriy 


-0,04 -0,01 -0,03 -0,13 0,00 0,05 -0,10 0,01 0,04 -0,114 -0,04 
First-generation 
college student 
High school GPA 0,03 -0,03 -0,01 0,04 0,01 -0,01 0,02 0,03 0,06 0,04 0,02 
Final grade 0,15 004 011 017 012 006 012 013 0,11 0,14 0,05 


0,01 0,04 0,04 -0,04 -0,03 0,03 -0,01 0,02 0,06 -0,05 0,02 


Note. N1 = 805 students. Within-course centered weekly action counts. 
Greyed cells — weeks with midterm exam (week 3, 6, 9). Bolt font p < .05. 


Associations Between Self-reported Data and Digital Trace Data (RQ3) 


Finally, using data from a small subsample of students who participated in the 
UCI-MUST project surveys, we examined the associations between students’ 
self-reported self-efficacy for SRL and students’ click activities across the quar- 
ter (N2T1 = 25; N2T2 = 18). Results shown in Table 2 indicated that students 
with higher self-efficacy for self-regulation at the beginning of the fall 2020 
quarter (T1) had higher click activities in several weeks across the quarter. 
This association was large and statistically significant at the beginning of the 
quarter and in the weeks around the first two midterm exams (weeks 1 to 
3: r = Al to r =.50; weeks 5 to 6: r = .40 to r =.65). The associations between 
students’ self-efficacy for SRL measured at T2 (shortly after the fall 2020 
term) and their study activities were positive, but not statistically significant 
in most weeks of the term. Large standard errors in the small survey sample 
at T2 (N2T2 = 18) are likely a contributing factor to the nonsignificant results. 


Table 2: Bivariate correlations of within-course centered action counts per week with 
self-reported self-efficacy for self-regulation. 


final f20 week week week week week week week week week week 
grade action 1 2 3 4 5 6 7 8 9 10 

count action action action action action action action action action action 

counts counts counts counts counts counts counts counts counts counts 


T1 SRL 

self-effi- 0,13 0,56 0,41 0,50 0,50 0,15 0,65 0,41 0,34 0,16 0,26 0,39 
cacy 

T2 SRL 

self-effi- 0,43 0,47 0,22 0,48 0,45 0,35 0,21 0,32 0,19 -0,17 0,46 0,39 
cacy 


Note. NT1 = 25 students, NT2 = 18 students. Within-course centered weekly action counts. 
Greyed cells — weeks with midterm exam (week 3, 6, 9). Bolt font p < .05. Italic font p < .10. 
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4.3. Discussion 


Descriptive and correlative findings provided in the example with combined 
digital trace data, course syllabus data, and survey data from the UCI-MUST 
project are consistent with previous literature. Variability in click activities 
across the weeks of the quarter and the increased number of clicks during 
the midterm exam weeks highlight the importance of considering course 
design features (i.e., exam weeks) when interpreting students’ study pat- 
terns in courses. Such information can be obtained, for instance, from the 
course syllabi. Furthermore, our findings indicated that students’ overall click 
activities were positively associated with final course grades. These findings 
corroborate previous findings (Cicchinelli et al., 2018; Nguyen et al., 2020; 
Park et al., 2017). Our findings further suggest that students’ weekly click 
activities might provide valuable information on their SLR behavior. Further- 
more, results indicate that click activities in specific weeks - i. e., immediately 
before, during, and immediately following an exam - might be particularly 
predictive of students’ final grades. 

Similar to results from prior studies (Nguyen et al., 2020; Rodriguez et 
al., 2021), our findings showed that students’ click activities varied among 
students with different demographic characteristics. Female students had 
slightly more click activities compared to male students, whereas students 
from historically underrepresented minorities showed fewer click activi- 
ties in their digital trace data during the weeks of the midterm exams. It is 
important to note that we cannot infer the causes of differing click activity 
patterns. Female student’ higher click activities might be related to higher 
levels of conscientiousness. Prior SRL research has shown that more consci- 
entious students are better in managing their time and regulating their effort 
in education (Douglas et al., 2016; McCrae & Léckenhoff, 2017; Waldeyer et 
al., 2022), and personality research has shown that female students report 
higher levels of conscientiousness than their male counterparts (Costa et la., 
2001; Schmitt et al., 2008). Female students are also more likely to report 
higher test anxiety (Cassady & Johnson, 2002; Costa et la., 2001) and hence, 
higher click activity of female students might also be the result of increased 
learning activities driven by anxiety before and during exam weeks. Lower 
levels of click-activities among students of underrepresented minorities 
could be explained by other obligations, such as jobs besides studying, that 
might conflict with their time and resources for study activities, or by defi- 
cient SRL strategies. Further information on students’ characteristics (e. g., 
personality traits, motivation, and goals) and their study and living situation 
(e. g., on other responsibilities besides studying) can be obtained through 
surveys, and are needed to explain variability in click activities among stu- 
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dents. Thus, these remaining open questions indicate a need to use multiple 
data sources. 

Our findings further showed positive associations between students’ 
self-efficacy for SRL and their amount of click activities in the course overall, 
as well as in the weeks before and during exams. These findings are consis- 
tent with prior evidence of positive associations between specific SRL behav- 
iors assessed through self-reports and digital trace data (e. g., Cicchinelli et 
al., 2018; Ifenthaler et al., 2022; Li et al., 2020). In our study, click activities 
across the quarter were positively associated with self-efficacy for SRL mea- 
sures at the beginning (T1) and end of the quarter (T2), with slightly stronger 
associations with T1 measures. These findings are in contrast to the findings 
by Li et al. (2020) who reported stronger associations between self-reported 
data and behavioral trace data at the end of a course. These authors proposed 
that students rated their SRL skills based on their real experiences in the 
course at the end of a quarter, which likely led to more accurate self-reported 
SRL skills at the second time point. In our study, students were asked about 
their self-efficacy for SRL in general and not regarding the specific course. 
This might explain why associations between self-efficacy for SRL and study 
activities were not stronger towards the end of the quarter. 

Overall, positive associations between self-report data and digital trace 
data on SRL and study activities point to the potential of combining both 
data sources to investigate study-related behaviors and academic perfor- 
mance: Behavioral trace data can provide measures of students’ real-time 
study behaviors in authentic contexts. Self-report data can provide import- 
ant information about a) internal cognitive and meta-cognitive aspects of 
SRL behavior, as well as students’ self-efficacy for SRL, and b) self-report 
data can provide relevant information to validate new SRL measures based 
on digital trace data. 


5. Conclusion 


This contribution aimed to provide an overview of current approaches on how 
to investigate adaptive SRL behaviors of college students with digital trace 
data. Digital trace data seems particularly useful to measure SRL behaviors 
related to students’ time management and aspects of monitoring behavior 
(e. g., through self-assessments with quizzes). While broad measures of study 
activities, such as the overall number of clicks and time spent on courses 
are moderate predictors of performance, more fine-grained measures, such 
as changes in click activities towards a deadline or using voluntary quizzes 
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to monitor learning, are particularly promising to identify students’ use of 
SRL strategies and associations with subsequent performance outcomes. To 
interpret such measures, it is necessary to take into account information 
about course design and context. Course syllabi and course plans can be 
reliable sources to obtain such relevant information (as done in the empirical 
example described above). Future research on SRL in college should continue 
to examine how information from survey data and digital trace data can be 
combined to investigate factors that facilitate or hinder SRL and performance 
in college. The above-mentioned studies successfully used digital trace data 
to describe adaptive and maladaptive study patterns. However, a remaining 
question is whether adaptive study behaviors were driven by external course 
designs and demands (i. e., externally regulated behavior), or through indi- 
vidual and purposefully used SRL strategies (i. e., self-regulated behavior). By 
combining digital trace data, survey data, and course syllabus data, future 
research could investigate the extent to which intraindividual and course con- 
textual factors contribute to explaining variance in study behaviors and course 
performance. Multiple source data would allow, for instance, to investigate 
if regular self-testing behavior and subsequent course performance are the 
result of course requirements and grading policies, or of students’ individual 
motivation and SRL skills. 
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Zusammenfassung 


Der vorliegende Beitrag beschaftigt sich mit der seit Jahren diskutierten 
Frage, welche Effekte die Komposition der Lerngruppe auf die individuelle 
Leistungsentwicklung Lernender nimmt. Trotz langer Forschungstradition 
sind die Befunde zu Effekten der Komposition der Lerngruppe auf die 
individuelle Leistungsentwicklung weiterhin uneindeutig. So wird zum 
einen darüber debattiert, ob Kompositionseffekte nur statistische Arte- 
fakte darstellen und reine „Phantom-Effekte“ sind. Zum anderen sind die 
zugrundeliegenden inhaltlichen und methodischen Konzepte wie auch die 
methodischen Ansätze und Designs in diesem Forschungsfeld sehr hetero- 
gen, was einen Teil der Widersprüchlichkeiten in den Befunden begrün- 
den mag. Der Beitrag stellt die Debatte um Effekte der Komposition der 
Lerngruppe auf die individuelle Leistungsentwicklung aus Perspektive des 
gegliederten deutschen Schulsystems vertieft dar und diskutiert zentrale 
inhaltliche und methodische Fragen, die Gegenstand künftiger theoreti- 
scher Auseinandersetzungen und empirischer Untersuchungen sein sollten. 


Wir danken Marko Neumann und Frauke Steinhäuser für hilfreiche Kommentare und 
Anmerkungen zu vorangehenden Versionen dieses Manuskriptes. 
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Schlagworte: Kontexteffekte; Kompositionseffekte; Leistungsgruppie- 
rung; Gegliedertes Schulsystem; Leistungsentwicklung; Mehrebenenana- 
lyse; Forschungsdesigns 


Abstract 


The present study aims to discuss the still “hot topic” of composition 
effects of schools and classrooms on individual achievement development. 
Although there is a long research tradition, the effects of school and class- 
room composition on individual achievement development are still con- 
troversially debated. For example, there is a recent debate to which extent 
composition effects on achievement development are mere statistical arti- 
facts, so-called “phantom effects.” Overall, one of the issues in this research 
area is that the relevant methodological and content-related concepts and 
definitions as well as research designs are highly heterogeneous, which 
may explain some of this controversy and even contradictory findings. 
The article aims to give an overview of the debate of composition effects 
on individual achievement development, focusing on especially what this 
means for tracked school systems such as the German one. Furthermore, we 
discuss both central content-related and methodological questions which 
we think should be studied further in theoretical and empirical research. 


Keywords: context effects; composition effects; ability grouping; tracking; 
achievement development; multi-level modeling; research designs 


1. Einleitung 


Dass keine Schulklasse wie die andere ist, ist einerseits eine Binsenweisheit, 
andererseits eine padagogische Realitat, die unterschiedliche Ursachen haben 
kann: Beispielweise rekrutieren Schulen mit dem Sprengelprinzip aus sehr 
unterschiedlichen Regionen und damit sehr unterschiedlichen Schiilerpopu- 
lationen, Schüler:innen und Eltern wählen mitunter selbst unterschiedliche 
Schulen aus und nicht zuletzt werden gerade in der Sekundarschulzeit durch 
fähigkeitsgruppierende Maßnahmen (sogenanntes „tracking“) Unterschiede 
zwischen Schulen, aber auch Klassen innerhalb von Schulen erzeugt (vgl. 
LeTendre, Hofer, & Shimizu, 2003; Steenbergen-Hu, Makel, & Olszewski-Ku- 
bilius, 2016). Im deutschsprachigen Schulsystem sind solche tracking-Maß- 
nahmen vor allem in Form der Gliederung in unterschiedliche Schulformen 
zu finden, was - wie grundsätzlich intendiert - deutliche Ausgangsunter- 
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schiede in der Leistung, aber auch in anderen Schülercharakteristika (z.B. 
im sozialen Hintergrund) zwischen Schulen und Klassen erzeugt. 

Entsprechend ist die Frage, welche Effekte von Unterschieden in der 
Leistungskomposition von Klassen und Schulen für die individuelle (Leis- 
tungs-)Entwicklung von Schüler:innen ausgehen, ein zentrales nationales 
wie internationales Thema der Bildungsforschung, -politik und -praxis. Im 
Kern wird also die Frage aufgeworfen, ob sich Schüler:innen mit gleichen 
individuellen Merkmalen (d.h. auch gleicher Leistung) in Lerngruppen, in 
denen die Mitschüler:innen unterschiedlich leistungsstark sind (also unter- 
schiedliche Leistungskompositionen vorliegen), unterschiedlich entwickeln. 
Auf theoretischer Ebene sind vor allem zwei Prozesse anzunehmen, die 
Unterschiede in der Leistungskomposition für die Individualentwicklung 
plausibel und relevant erscheinen lassen: peer-Prozesse und Instruktions- 
prozesse (für einen Überblick siehe Dumont, 2021; Harris, 2010). Unter 
peer-Prozessen werden im engeren Sinne Effekte verstanden, die durch 
die Interaktion mit den Mitschüler:innen (peers) entstehen. Diese werden 
auch als peer contagion bezeichnet, wenn sich beispielsweise die Motivation 
der leistungsstarken Mitschüler:innen durch einen anregenden Austausch 
„überträgt“. Dieser Argumentation folgend dienen die Mitschüler:innen im 
Sinne des sozialen Lernens als Vorbilder und im direkten sozialen Austausch 
auch als Wissensvermittler:innen (Dishion & Tipsord, 2011; Gottfried, 2015; 
Müller, Hofmann, Fleischli, & Studer, 2015; Tenenbaum, Winstone, Leman, 
& Avery, 2020). Zudem wird angenommen, dass die Qualität der Instruk- 
tion selbst von der Klassenkomposition beeinflusst wird (Instruktionspro- 
zess). Dies hat mehrere Facetten: Einerseits können Lehrkräfte direkt auf die 
unterschiedlichen Kompositionen reagieren, indem leistungsstärkere Klas- 
sen schneller und kognitiv anregender unterrichtet werden als weniger leis- 
tungsstarke Klassen (Baumert et al., 2010; Dreeben & Barr, 1988; Harker & 
Tymms, 2004). Auch Aspekte der Klassenführung, wie gut zum Beispiel ein 
gemeinsames Unterrichtsgeschehen aufrechterhalten werden kann oder wie 
auf Störungen reagiert wird, spielen hier eine Rolle (Fauth, Atlay, Dumont, 
& Decristan, 2021). 

Obwohl diese Prozesse theoretisch sehr plausibel sind, ist es weiterhin 
umstritten, ob Unterschiede in der (mittleren Leistungs-)Komposition zu 
unterschiedlichen Lernergebnissen für einzelne Schüler:innen führen - 
unabhängig von ihren individuellen Lernvoraussetzungen (z.B. Duru-Bellat 
& Mingat, 1998; Hanushek, Kain, Markman, & Rivkin, 2003; Kang, 2007; 
Marks, 2010; Nomi & Raudenbush, 2016; Opdenakker & Van Damme, 2001; 
Opdenakker, Van Damme, De Fraine, Van Landeghem, & Onghena, 2002; 
Tenenbaum et al., 2020). Jüngst ist diese Debatte wieder aufgeflammt, da 
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Arbeiten zeigen konnten, dass der differenzielle Umgang mit Messfehlern 
bei der Schätzung von Kompositionseffekten zu großen Unterschieden füh- 
ren kann und insbesondere die Gefahr einer Überschätzung der Effekte 
besteht (Dicke et al., 2018; Pokropek, 2015; Televantou, Marsh, Dicke, & 
Nicolaides, 2021; Televantou et al., 2015). Entsprechend wird diskutiert, ob 
überhaupt von (positiven) Effekten der mittleren Leistungskomposition auf 
die Leistungsentwicklung auszugehen ist - oder ob es sich um reine sta- 
tistische Artefakte handelt (sogenannte Phantom-Effekte; vgl. auch schon 
Harker & Tymms, 2004). Becker et al. (2022) konnten im Rahmen dieser 
Debatte zeigen, dass derlei Verzerrungen auch in deutschen Studien für die 
Ergebnisse zwar relevant sind, gleichzeitig aber nicht grundsätzlich davon 
auszugehen ist, dass Kompositionseffekte statistische Artefakte darstellen, 
zumindest nicht im Sinne der aufgeworfenen Debatte. 

Der vorliegende Beitrag möchte hieran anschließend die Frage nach 
peer-Effekten der mittleren Klassenleistung noch einmal breiter aufgrei- 
fen und im weiteren theoretischen Kontext verorten. Schon in Becker et al. 
(2022) wurde darauf verwiesen, dass Kompositionseffekte durchaus brei- 
ter zu verstehen sind, als dies in den jüngeren Debatten oder auch in der 
deutschen Bildungsforschung meist diskutiert wird. Der vorliegende Bei- 
trag möchte erläutern, wie diese Diskussion und die jüngsten Ergebnisse zu 
verorten sind. Entsprechend werden im vorliegenden Beitrag zunächst die 
grundlegenden Konzeptionen von Kompositionseffekten vorgestellt. Dann 
wird erläutert, welche Spezifika für das deutsche gegliederte Schulsystem 
bzw. gegliederte Schulsysteme prinzipiell zu beachten sind und wie sich aus 
dieser Verortung die gegenwärtige Debatte um Kompositionseffekte und die 
Ergebnisse aus Becker et al. (2022) kontextualisieren und verstehen lassen. 
Der Beitrag zieht hierbei unterschiedliche theoretische Ansätze heran, maß- 
geblich erziehungswissenschaftliche und psychologische Erklärungen, aber 
auch soziologische und ökonomische. Der Beitrag schließt mit einem Aus- 
blick auf die Diskussion um die Bedeutung von Kompositionseffekten und 
Implikationen für Forschung und Praxis. 


2: Kompositions- und Peer-Effekte: Zentrale Dimensionen 
Kompositionseffekte beschreiben ganz allgemein alle Einflüsse, die von der 
Komposition der Lerngruppe, also den Mitschüler:innen, die ein Individuum 


umgeben, ausgehen. Da es um die peers und ihre Effekte auf die Individualent- 
wicklung geht, werden Kompositionseffekte auch als peer-Effekte bezeichnet 
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(Sacerdote, 2011). Diese beiden Begriffe werden im Folgenden weitgehend 
synonym gebraucht, wenn es nicht anders vermerkt wird. 
Kompositionseffekte werden auch definiert als „all externalities that spill 
over from peers’ or peers’ family background or current actions” (Sacerdote, 
2011, S. 250). Sie umfassen entsprechend alles, was direkt oder indirekt von 
den peers ausgeht. Mit direkten Effekten wären die oben genannten peer-Pro- 
zesse gemeint, wenn also Mitschüler:innen sich direkt gegenseitig im Kon- 
takt beeinflussen. Mit indirekten Effekten meint man vor allem die oben 
beschriebenen Instruktionsprozesse, z.B. die Reaktionen der Lehrkräfte auf 
die Komposition einer Schulklasse, ob schneller oder langsamer unterrichtet 
wird in Abhängigkeit der Leistungsfähigkeit der Lerngruppe/peers etc.' Dies 
kann konzeptuell soweit gehen, dass auch als peer-Effekt gelten kann, wenn 
sich etwa die Eltern der peers um einen Wechsel der Lehrkraft und besse- 
ren Unterricht bemühen. Ein Effekt der peers und der Komposition kann 
also unterschiedlich proximal oder distal entstehen. Gleichzeitig können die 
Effekte auf anderen Ebenen auch wieder unterschiedlich interpretiert und 
verstanden werden - im Falle der vorangehend erwähnten Bemühungen, 
dass peer-Eltern eine andere Lehrkraft und anderen Unterricht herbeifüh- 
ren, wäre dies auch als Lehrkraft- oder Unterrichtseffekt interpretierbar. 
Dies ist eine grundlegend definitorische und konzeptuelle Problematik. 
Konzeptionell lohnt es sich zu überlegen, welcher Aspekt der Kompo- 
sition der Mitschüler:innen einen Effekt auf das Individuum haben kann. 
In der Bildungsforschung und Pädagogischen Psychologie wird besonders 
prominent der Effekt des Mittelwertes untersucht; ob also vom mittleren 
Niveau der Gruppe ein Effekt ausgeht (für Übersichten vgl. z.B. Dumont, 
2021; Rjosk, 2022; van Ewijk & Sleegers, 2010a, 2010b). Dies wird in der Lite- 
ratur auch als linear-in-means-Modell beschrieben (vgl. Sacerdote, 2011, 
sowie Tabelle 1). Darüber hinaus lässt sich eine Reihe weiterer Effekte oder 
Modelle beschreiben, wie die Komposition der Lerngruppe wirken kann, 
etwa das bad apple-Modell, nach dem einzelne peers die Entwicklung der 
Mitschüler:innen stören können, oder der umgekehrte Fall, dass einzelne 
Personen als leuchtendes Beispiel die Mitschüler:innen positiv beeinflussen 
(shining light-Modell). Diese Effekte können vermutlich auch parallel auftre- 
ten. So wäre beispielsweise denkbar, dass sowohl das linear-in-means-Mo- 


1 Sacerdote (2011) gibt folgende, sehr anschauliche Beispiele hierzu: „[I]f a student’s classma- 
tes have higher incoming ability and the student learns directly from her classmates, that is 
a peer effect. Ifthe classmates have higher incoming ability and this enables the teacher to 
teach at a higher level or amore demanding pace, that is also a peer effect. Ifthe student is 
disruptive and consumes more of the teacher’s attention, thereby reducing her classmates’ 
test scores, that too is a peer effect [...] If the student develops an interest in athletics or in 
shoplifting because of her peers, those are also peer effects.“ (Sacerdote 2011, S. 250f.). 


154 


dell zutrifft, also die Leistungsentwicklung in Abhängigkeit des mittleren 
Niveaus der Klasse kovariiert, als auch gleichzeitig bad-apple-Effekte auf- 
treten, also einzelne disruptive Schüler:innen die Entwicklung der Mitschü- 
ler:innen zusätzlich negativ beeinträchtigen. Mit Blick auf gegliederte Schul- 
systeme ist vermutlich insbesondere das boutique-Modell interessant: Hier 
wird vermutet, dass Personen vor allem dann besonders gute Lernleistun- 
gen zeigen, wenn sie mit leistungsähnlichen peers unterrichtet werden, was 
zumindest theoretisch der Grundintention der schulischen Gliederung ent- 
spricht. Nicht zuletzt sind Aspekte der Homo- oder Heterogenität der Lern- 
gruppe von Bedeutung, wasin Tabelle 1 unter focus- oder rainbow-Modellen 
aufgeführt wird. Empirisch finden sich für diese unterschiedlichen Prozesse 
in der Literatur empirische Evidenzen, die für die potentielle Relevanz jeder 
dieser einzelnen Komponenten bzw. Facetten von Komposition sprechen 
(vgl. u.a. Carrell & Hockstra, 2010; Feld & Zölitz, 2017; Hoxby, 2000; Sacer- 
dote, 2011). In der deutschen Forschung werden Kompositionseffekte, wie 
eingangs erwähnt, vor allem aus der Perspektive von linear-in-means-Mo- 
dellen, gelegentlich auch in Hinblick auf Klassenhomo- oder -heterogenität 
(also focus- oder rainbow-Modelle) untersucht (für eine knappe Übersicht 
vgl. jüngst Rjosk, 2022). 


Tabelle 1: Unterschiedliche Modelle möglicher peer-Effekte 


Effekt- 


Modell homogenität Beschreibung 

Linear-in-means Ja Mittleres Leistungs-/Hintergrundmerkmal der Mitschiler:innen 

Bad-Apple Ja Disruptives Merkmal stört alle anderen 

Shining light Ja Herausragende:r Mitschüler:in wirkt als Vorbild für alle anderen 

Invidious comparison Nein Beeinträchtigungen durch einzelne leistungsstärkere peers 

Boutique Nein Leistungsoptimierung wenn mit gleichen peers umgeben 

Focus Ja Homogenität der Lerngruppe ist prinzipiell gut, unabhängig der individuellen 
Leistung der Einzelperson 

Rainbow Ja Heterogenität der Lerngruppe ist prinzipiell gut für alle 

Single crossing Nein Lernende profitieren (disproportional) von der Leistungsstärke der Mitschü- 


er:innen. 


Quelle: Sacerdote (2011, S. 255). 


Neben den Arten von Kompositionseffekten werden auch die Konstrukte 
unterschieden, nach denen sich peer-Kompositionen unterscheiden können. 
Als Merkmale für Klassen- oder Schulkompositionseffekte wird zumindest 
in der deutschsprachigen Forschung in der Regel die Leistungskomposition 
herangezogen. Gerade in Deutschland ist die Variation der Leistung vor allem 
in den Sekundarschulen das zentrale strukturierende Merkmal und entspre- 
chend in der Regel im Fokus des Interesses (Fauth et al., 2021; Traini, Kleinert, 
& Bittmann, 2021) - gerade (aber nicht nur) weil nach der Grundschule Schü- 
ler:innen nach Leistung in unterschiedliche Schulformen aufgeteilt werden. 
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Entsprechend ist die Leistungsvariabilität zwischen den Sekundarschulen 
stark ausgeprägt (vgl. z.B. Baumert, Trautwein, & Artelt, 2003). In der inter- 
nationalen Forschung, insbesondere in den Vereinigten Staaten, sind andere 
Kompositionsmerkmale prominenter, vor allem die soziökonomische und 
ethnische Herkunft der Schüler:innen (van Ewijk & Sleegers, 2010a, 2010b), 
was mindestens durch die starke soziale Segregation von Schulen und Schul- 
bezirken bedingt ist, die in Teilen wiederum auf die vormalige rassistische 
Trennung in ein „weißes“ und ein „schwarzes“ Schulsystem zurückgeht (z. B. 
Reardon & Owens, 2014). Weitere Kompositionsmerkmale, wie etwa die Moti- 
vation oder Arbeitsdisziplin der Mitschüler:innen, sind ebenso denkbar und 
wurden gelegentlich untersucht (z. B. Nikolov & Dumont, 2020; Westphal et 
al., 2016). 

Nicht zuletzt stellt sich die Frage, auf welcher Ebene analysiert wird, ob 
also Kompositionseffekte auf Klassen- oder Schulebene betrachtet werden. 
In der Regel wird die Klassenebene als die primäre und vermittelnde Ebene 
angesehen, in der sich die eigentlichen Lern- und Interaktionsprozesse 
abspielen; zumindest finden sich tendenziell größere Effekte, wenn auf der 
Klassenebene im Vergleich zur Schulebene analysiert wird (vgl. u.a. Eccles 
& Roesser, 2011; van Ewijk & Sleegers, 2010a, 2010b). Dies ist inhaltlich auch 
dahingehend indiziert und plausibel, da sich Effekte auf Schulebene etwa im 
Sinne eines Schulklimas denken lassen, das sich ebenso im Klassenzimmer 
manifestiert. Umgekehrt muss es aber nicht der Fall sein, dass sich Klassen- 
merkmale auch auf Schulebene auswirken. Gerade in Situationen, in denen 
innerhalb von Schulen spezifische Leistungsgruppierungen in Form von 
Basis- und Leistungskursen mit leistungsschwächeren und leistungsstär- 
keren Schüler:innen gewählt werden (wie z.B. in kooperativen oder inte- 
grierten Gesamtschulsystemen), sollte sich dieser Unterschied kaum in der 
Komposition auf Schulebene abbilden. 


3. „Spezialfall“ gegliederte Schulsysteme: Deutschland als 
prototypisches Beispiel 


Wie eingangs schon kurz angeführt, kommt es zwischen Klassen und Schulen 
aus diversen Griinden zu Unterschieden in der Leistungskomposition. Durch 
unterschiedliche Schuleinzugsgebiete etwa treten einerseits meist implizit 
Unterschiede zwischen Schulen bzw. deren Klassen auf. In Folge dessen setzt 
sich beispielsweise die Schülerschaft einer Schule in Duisburg aus einer ande- 
ren Klientel zusammen als in Düsseldorf. Regionen und damit Bevölkerungen, 
aus denen sich Schulklassen rekrutieren, sind ein Grund für Unterschiede 
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zwischen Schulen, aber auch natürliche Schwankungen von Jahr zu Jahr pro- 
duzieren Differenzen. Insgesamt wird dies auch als implizites between-school 
tracking bezeichnet (Trautwein, Lüdtke, Marsh, Köller, & Baumert, 2006). 

Andererseits werden unterschiedliche Lernkontexte auch explizit herbei- 
geführt, maßgeblich durch sogenannte fähigkeitsgruppierende Maßnahmen 
(tracking), beispielsweise basierend auf Rationalen eines boutique-Modells 
oder focus-/rainbow-Modells (vgl. Tab. 1), dass Schüler:innen besser mit 
ähnlichen Mitschüler:innen lernen bzw. Lehrkräfte besser in leistungsho- 
mogenen Gruppen unterrichten können (vgl. auch Hattie, 2002; Kulik & 
Kulik, 1992; Schofield, 2010). Es lassen sich sehr unterschiedliche Formen 
von ability grouping bzw. tracking-Maßnahmen finden (zur Begrifflich- 
keit siehe u.a. Chmielewski, Dumont, & Trautwein, 2013; Steenbergen-Hu 
et al., 2016; Trautwein et al., 2006): course-by-course tracking sortiert die 
Schüler:innen innerhalb einer Schule für jeweils einzelne Schulfächer nach 
ihren Leistungsniveaus (im deutschen Schulsystem etwa in den integrierten 
Gesamtschulen). Als within-school tracking bezeichnet man Leistungsgrup- 
pierungen, die konsistent über alle Fächer hinweg innerhalb einer Schule 
vorgenommen werden (im deutschen Schulsystem in kooperativen Gesamt- 
schulen oder Schnellläuferklassen in Gymnasien). (Explicit) between-school 
tracking bezeichnet die Aufteilung der Schüler:innen in getrennte Schulen 
(in Deutschland die unterschiedlichen Schulformen, wie sie in allen Bundes- 
ländern nebeneinander bestehen; Neumann, Maaz, & Becker, 2013). 

Für die Analyse von Kompositionseffekten ist diese Ausgangssituation 
des fähigkeitsbasierten expliziten between-school trackings in Form von 
unterschiedlichen Schulformen im deutschen (Sekundar-)Schulsystem hin- 
sichtlich drei unterschiedlicher Aspekte interessant und gleichzeitig mit 
großer Umsicht zu interpretieren: Erstens ist die Variabilität der Leistung 
zwischen den Sekundarschulen relativ hoch; der Großteil der Leistungsva- 
riabilität ist zwischen Schulen (bzw. Schulformen), und nicht innerhalb von 
Schulen, zu verorten (während z.B. in PISA im OECD-Durchschnitt eher 
der geringere Teil, rund 40%, zwischen den Schulen liegt; Brunner, Kel- 
ler, Wenger, Fischbach, & Lüdtke, 2018). Diese hohe Variabilität zwischen 
Schulen stellt grundsätzlich eine gute Ausgangsbasis dar, um überhaupt grö- 
ßere Unterschiede in der Leistungskomposition vorzufinden, die potenziell 
Effekte auf die individuelle Leistungsentwicklung haben können. 

Zweitens sind sowohl peer- als auch Instruktionsprozesse im deutschen 
Sekundarschulsystem maximiert, da gerade durch das between-school tra- 
cking in Form der schulischen Gliederung beide Aspekte in ihrer Unter- 
schiedlichkeit forciert werden. Durch das tracking werden unterschiedliche 
disparate Lernmilieus konstruiert (eine Konsequenz des Trackings, die aus 
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einer soziologischen Perspektive entsprechend kritisch hinterfragt wird, 
vgl. z.B. Oakes, 1985; van de Werfhorst & Mijs, 2010). Hierdurch wird der 
Kontakt innerhalb von Lerngruppen intensiviert, da die Schüler:innen in 
unterschiedliche Schulformen (physisch) getrennt werden, was die Unter- 
schiedlichkeit auf Gruppenebene verstärkt (aus internationaler Perspektive 
kompakt zusammengefasst in Chmielewski et al., 2013). Ebenso fallen die 
Instruktionsprozesse in den Schulformen und auch die Lehrkräfteausbil- 
dung gerade für die Gymnasien mit einer relativ stärkeren universitären 
Orientierung deutlich anders aus als in den anderen Schulformen (Baumert 
et al., 2010; Baumert et al., 2004; Gruehn, 2000; Henschel, Rjosk, Holtmann, 
& Stanat, 2019). Nicht zuletzt zeichnen sich die Curricula vor allem in den 
Gymnasien durch eine inhaltlich größere Breite und Komplexität aus (z.B. 
mit mehr Fremdsprachenunterricht; Becker, 2009). 

In diesem Sinne ist als dritter zentraler Punkt für die Interpretation von 
Leistungskompositionseffekten zu beachten, dass Kompositionseffekte (im 
Sinne von peer-Effekten) mit institutionellen Effekten teilweise konfundiert 
sind, da ein Teil der Leistungskomposition mit unterschiedlichen institutio- 
nellen Arrangements zusammenfällt. Aus theoretischer Perspektive ist dies 
dahingehend unproblematisch, da der konfundierte Anteil der Leistungs- 
komposition mit der Institution einerseits genau der (intentional herbeige- 
führten) Variabilität der Leistungskomposition Rechnung trägt, z.B. durch 
eine kognitiv anregendere Instruktion und ein anspruchsvolleres Curricu- 
lum. Dies würde man (situativ) auch als Reaktion auf Unterschiede in der 
Komposition erwarten; in der Literatur wurde dies auch für „natürliche“ 
Kontextvariabilitäten nachgewiesen, z.B. in der experimentellen Arbeit von 
Duflo et al. (2011). Andererseits mögen die institutionellen Unterschiede 
zwischen den Schulformen auch partiell Anderes abbilden als institutiona- 
lisierte Reaktionen auf die Leistungskomposition, z.B. durch unterschied- 
liche Ausbildungen und Klientel der verschiedenen Lehramtsstudiengänge 
und späteren Lehrkräfte (Klusmann, 2013). Zwar stellt sich hierbei die Frage, 
inwiefern derlei Merkmalsunterschiede nicht auch indirekt eine Reaktion 
auf die unterschiedlichen Leistungskompositionen darstellt (z.B. stärker 
akademisierte Ausbildungen für den späteren Unterricht an Gymnasien), 
was sich entsprechend im (akademisierten) Unterricht widerspiegelt (Bau- 
mert et al., 2010). Traditionell werden derlei Aspekte in der deutschspra- 
chigen Bildungsforschung nicht als Kompositionseffekte im engeren Sinne 
interpretiert, sondern als Institutionseffekte (Baumert, Stanat, & Water- 
mann, 2006). 
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4. Spezifische Fragen: Die jüngste Debatte um Effekte 
der mittleren Leistung auf die Leistungsentwicklung als 
Artefakt 


Es wurde vorangehend schon darauf hingewiesen, dass in der Debatte um 
Kompositionseffekte in der Bildungsforschung und Pädagogischen Psycho- 
logie der Fokus vor allem auf Effekten der mittleren peer-Komposition und 
linear-in-means Modellen lag. Regressionsanalytisch wird dies dahingehend 
konzeptualisiert, dass von einem Kompositionseffekt der Klassen- oder Schul- 
leistung gesprochen wird, wenn nach Kontrolle der individuellen Leistung der 
Schüler:innen die mittlere aggregierte Leistung weiterhin einen Effekt auf die 
Leistung erzielt (Harker & Tymms, 2004; van Ewijk & Sleegers, 2010a, 2010b). 
Normalerweise werden Datensätze mit mindestens zwei Messzeitpunkten 
analysiert, da so die Ausgangsleistung der Klasse/Schule und der Schüler:in als 
Prädiktoren für die Individualleistung zum nächsten Messzeitpunkt genutzt 
werden können. Alternativ wird vereinzelt in querschnittlichen Designs die 
Leistungskomposition über die durchschnittlichen kognitiven Fähigkeiten 
operationalisiert, so dass der Effekt auf die individuelle Schulleistung (ggf. 
nach Kontrolle der individuellen kognitiven Fähigkeiten) geschätzt werden 
kann (Baumert et al., 2006). In der Regel wird dies als Mehrebenenregres- 
sion (multilevel models, MLM, oder auch synonym als hierarchisch-lineare 
Modelle, HLM, bezeichnet; Raudenbush & Bryk, 2002) spezifiziert. MLM 
erlauben, in einem Modell Effekte sowohl auf individueller Ebene (L1) als 
auch auf Aggregatsebene (L2) zu schätzen; letzteres wäre in der Regel die 
Klasse oder auch die Schule. Sie sind insbesondere die Methode der Wahl, um 
Varianzen und Effekte auf den unterschiedlichen Ebenen zu schätzen, d.h. um 
beispielsweise zu bestimmen, wie die individuellen Leistungen durch die Klas- 
senleistungen vorhergesagt werden können. Genau an dieser Stelle entzündete 
sich in der Forschung schon vorangehend (Harker & Tymms, 2004) und auch 
wieder jüngst die Frage, wann man in dieser Art von Modellen „echte“ Kom- 
positionseffekte schätzen kann: Einerseits müssen Selektionseffekte adressiert 
sein, anderseits müssen die Leistungsdaten hinreichend reliabel gemessen sein 
(Dicke et al., 2018; Harker & Tymms, 2004; Televantou et al., 2015). 

Der Frage nach Selektionseffekten kommt grundlegend die größte 
Bedeutung zu: Um einen regressionsanalytischen mittleren Effekt als „ech- 
ten“ Kompositionseffekt interpretieren zu können, müssen vorangehende 
individuelle Unterschiede kontrolliert sein. Gerade am gegliederten Schul- 
system lässt sich dies gut veranschaulichen: Unterschiede, die aufgrund der 
leistungsbasierten Zuweisung schon von Beginn an zwischen Schüler:innen 
in unterschiedlichen Sekundarschulformen bestehen, bevor der Klassen- 
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kontext überhaupt wirken konnte, müssen entweder per Design oder statis- 
tisch kontrolliert werden, damit man das, was man als Effekt der mittleren 
Leistung schätzt, als Kompositionseffekt interpretieren kann. Andernfalls 
wird der Kompositionseffekt durch nicht kontrollierte Selektionsprozesse 
überschätzt (auch als selection bias bzw. pretreatment heterogeneity bezeich- 
net; Morgan & Winship, 2015). In der Regel sind relevante konfundierende 
Merkmale dieser Art neben der Eingangsleistung auch der sozioökonomi- 
sche und -kulturelle Hintergrund der Familie, das Geburtsland der Eltern 
oder die Herkunftssprache - Variablen also, die mit der Klassenkomposition 
bzw. im Falle von Schulformen mit der Eingangsselektion zusammenhän- 
gen und gleichzeitig für die Outcomes und ihre Entwicklung von Bedeu- 
tung sind (für prototypische Spezifikationen und Diskussion vgl. Dicke et 
al., 2018; Lauen & Gaddis, 2013; Televantou et al., 2021). 

Da in querschnittlichen Studien die Ausgangsmessung des interessieren- 
den Merkmals nicht zur Verfügung steht, sind sie schlechter in der Lage, 
Selektionseffekte zu kontrollieren. Zwar gibt es Arbeiten, die nahelegen, dass 
man z.B. mit der Kontrolle des sozialen Hintergrundes und der kognitiven 
Grundfähigkeiten als Proxy für die Eingangsselektivität zu relativ konsisten- 
ten Schätzungen im Vergleich zu längsschnittlichen Studien gelangen kann 
(vgl. Baumert et al., 2006). Allerdings ist es auch schon in einer längsschnitt- 
lichen Studie nicht trivial sicherzustellen, dass eine hinreichende Kontrolle 
von relevanten Eingangsunterschieden erreicht wurde. So bleiben diese 
Effekte stets mit einer Unsicherheit behaftet, was aber typisch ist für „kau- 
sale“ Effekte, die mit nicht-experimentellen Beobachtungsdaten geschätzt 
wurden (Morgan & Winship, 2015; Reardon & Owens, 2014; Rosenbaum, 
2002). Letztendlich muss auf einer inhaltlichen und theoretischen Ebene 
argumentiert werden, inwiefern die Auswahl der Kontrollvariablen hin- 
reichend ist, um relevante Eingangsunterschiede und damit die Stichpro- 
benselektivität zu kontrollieren. Dies fällt entsprechend in längsschnitt- 
lichen Designs mit Kovariaten, die sowohl mit der Selektion als auch mit 
dem Outcome hoch korrelieren, leichter und lässt sich besser plausibilisieren 
(Austin, Grootendorst, & Anderson, 2007; VanderWeele, 2019), als dies vor 
allem für querschnittliche Designs gilt. Prinzipiell konnte in experimentel- 
len Studien gezeigt werden, dass die Ausgangsmessung („pre-treatment“) des 
zu interessierenden (Leistungs-)Merkmals, also bevor das „Treatment“, d.h. 
der Kontext / Komposition gewirkt haben kann, zentral ist bzw. dazu beitra- 
gen kann, um mittels Matching-Verfahren oder gar regressionsanalytisch zu 
einer unverzerrten Schätzung des Treatment-/Kontexteffektes zu gelangen 
(Cook, Steiner, & Pohl, 2009; Pohl, Steiner, Eisermann, Soellner, & Cook, 
2009; P. M. Steiner, Cook, Shadish, & Clark, 2010). Dies ist auf der theo- 
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retischen Ebene insofern plausibel, da durch die Kontrolle der Ausgangs- 
messung auch andere Heterogenitätsmerkmale und deren Korrelationen zu 
dem Merkmal selbst bzw. mit der Selektion implizit kontrolliert werden.? 

In diesem Punkt wird neben der Kontrolle von Selektionseffekten nun 
das zweite Thema in der Diskussion um die konsistente Schätzung von 
Kompositionseffekten relevant, nämlich die Frage nach der Reliabilität der 
Leistungsmaße auf Ebene der individuellen Messungen (L1) sowie der agg- 
regierten Messungen auf der Kontextebene (L2). Prinzipiell ist in MLM, 
ähnlich wie in jeder regressionsanalytischen Schätzung, eine reliable Mes- 
sung notwendig für eine teststarke und unverzerrte Schätzung von Effekten. 
Mit der Aufteilung der Effekte auf unterschiedliche Analyseebenen (L1 und 
L2) im MLM ergeben sich unterschiedliche Dimensionen von Messfehlern 
sowie unterschiedliche Konsequenzen, je nachdem, wo die Fehler zu veror- 
ten sind (Lüdtke, Marsh, Robitzsch, & Trautwein, 2011; Marsh et al., 2009): 
Neben der klassischen Reliabilität der Messinstrumente (auf L1) ist auch 
die Reliabilitat der aggregierten Messungen auf der Kontextebene (L2) (sog. 
sampling-Reliabilität; Lüdtke et al., 2011) von Bedeutung. Sampling-Relia- 
bilität meint hierbei, dass nur eine Teilstichprobe von Individuen aus jedem 
Kontext (d.h. Schüler:innen in Klassen oder Schulen) berücksichtigt wird. 
Dies kann stark variieren, da beispielsweise Klassen relativ leicht vollstän- 
dig gezogen werden können, andererseits ganze Schulen selten vollständig 
erfasst werden. In PISA beispielsweise werden aus den einzelnen Schulen in 
der Regel jeweils 25-40 15-jährige Schüler:innen bzw. Neuntklassler:innen 
gezogen (Baumert, Stanat, & Demmrich, 2001; OECD, 2012), die entspre- 
chend einen mehr oder weniger reliablen Schätzwert für den Schulkontext 
abgeben, ganz unabhängig davon, wie die eingesetzten Messinstrumente für 
die jeweiligen Merkmale funktionieren. 

In der methodischen Forschung wurde ausführlich dargelegt, dass die 
Missachtung dieser Aspekte von Reliabilität zu unterschiedlichen Ver- 
zerrungen in der Parameterschätzung führen. Bei der Analyse von Kom- 
positionseffekten wurde insbesondere intensiv diskutiert, inwieweit eine 
mangelnde Reliabilität (bzw. ihre mangelnde Berücksichtigung) auf indi- 


2 In diesem Kontext ist auch der Hinweis relevant, dass das einfache Vorliegen längsschnitt- 
licher Daten keine kausal informative Studie bedingt. Eine längsschnittliche Studie bietet 
lediglich mehr Möglichkeiten, eine kausal informative Analyse durchzuführen. Ob dies 
gelingt, z.B. ob vorausgehende zentrale pre-treatment Kovariaten hinreichend gut erfasst 
wurden und damit relevante Gruppenunterschiede kontrolliert werden können, ist stets 
im Einzelfall zu beurteilen und argumentativ zu begründen. Dies wird auch beispielsweise 
in der Forschung zu directed acyclic graphs (Steiner, Kim, Hall, & Su, 2017) betont, einem 
analytischen Werkzeug, mit dem man anhand von graphischen Veranschaulichungen 
mögliche kausale Szenarien verdeutlicht und (im Idealfall) nachvollziehbar plausibilisiert. 
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vidueller Ebene zu einer Überschätzung des Effektes des entsprechenden 
Merkmals auf Aggregatsebene führt (Harker & Tymms, 2004). Im Sinne 
des vorangehenden Selektionsproblems würden die individuell bedingten 
(Eingangs-)Unterschiede aufgrund messfehlerbehafteter Messungen nicht 
hinreichend korrigiert und (fälschlicherweise) als L2-Effekte im Modell 
abgebildet (Lüdtke et al., 2011). Im Rahmen latenter MLM können diese 
Reliabilitätsprobleme auf beiden Ebenen und auch unabhängig voneinan- 
der adressiert werden. Wenngleich sich in den klassischen Konstellationen 
der Schulforschung der Messfehler auf der Individualebene (L1) in der Regel 
als der problematischere für die Schätzung von Effekten zeigt, hat sich die 
Berücksichtigung der Messfehler auf beiden Ebenen im Rahmen von doubly 
latent models (DLM) als eine ebenfalls häufig verwendete Methode etabliert 
(vgl. Abbildung 1). 


Abbildung 1: 2x2 Systematik von Multilevel-Regression (nach Lüdtke et al., 2011): 
Aufteilung nach Berücksichtigung von Messfehlern in den individuellen Messungen 
(Messreliabiltät; L1) oder in der Ziehung von Individuen aus den Kontexten (Sampling- 
Reliabilität; L2) 


Berücksichtigung der Sampling-Reliabilität 


Nein 


Manifest-manifest 
Latent-manifest 


Das Problem der Reliabilitätsschätzungen auf den verschiedenen Analysee- 
benen ist in der Forschung schon länger bekannt (Harker & Tymms, 2004; 
Lüdtke et al., 2008). Es wurde aber gerade in der jüngeren Forschung mit 
den neuen Möglichkeiten durch DLM noch einmal zur Diskussion gestellt, 
inwiefern vorangehende Studien, die die Reliabilität der Messinstrumente und 
des Samplings nicht explizit modellierten, zu einer Überschätzung von (posi- 
tiven) Kompositionseffekten aufindividuelle akademische Leistung gelangten 
(Dicke et al., 2018; Pokropek, 2015; Televantou et al., 2021; Televantou et al., 
2015). Diese Arbeiten konnten zeigen, dass beide Reliabilitätsprobleme auch in 
der Forschungspraxis durchaus von Relevanz sein können: Mitunter sind posi- 
tive Effekte der Komposition auf die Leistungsentwicklung in diesen Analysen 
verschwunden und sogar negativ geworden (Dicke et al., 2018; Televantou et 
al., 2021; Televantou et al., 2015). In diesem Sinne wurde gemutmaßt, ob es 
sich bei Effekten der mittleren Leistungskomposition auf die Leistungsent- 
wicklung um reine „Phantom-Effekte“ handeln könnte. Gleichzeitig verweisen 
Dicke et al. (2018) und Televantou et al. (2015, 2021) darauf, dass nicht nur 


Berücksichtigung der Manifest-latent 


Messreliabilität Doppelt-latent 
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die Effekte der mittleren Klassenleistung ausbleiben bzw. tendenziell sogar 
negativ ausfielen, sondern gleichzeitig auch negative Effekte auf psychosoziale 
Konstrukte, wie das akademische Selbstkonzept, nachzuweisen sind, und 
sogenannte Big-Fish-Little-Pond-Effekte (BFLPE; Marsh, 1989) auftreten: 
Personen fühlen sich in Klassen mit leistungsstarken peers weniger kompetent 
als mit leistungsschwächeren. Insofern ist hier sehr berechtigt zu überlegen, 
ob negative psychosoziale Effekte auch die Leistungsentwicklungen negativ 
dominieren - trotz möglicher positiver peer contagion oder anspruchsvolleren 
Instruktionsprozessen. 


Effekte der mittleren Leistungskomposition auf die 
Leistungsentwicklung in Deutschland 


Unmittelbar an die Diskussion um die Probleme von Messreliabilität und der 
Möglichkeit, dass Kompositionseffekte eigentlich „Phantom-Effekte“ sein 
könnten, schließt sich die Frage an, ob derlei Effektmuster auch für das deut- 
sche Schulsystem plausibel sind. So wissen wir z.B. von sehr starken Schul- 
formeffekten, die weitgehend ohne die identifizierten Reliabilitätsprobleme 
geschätzt wurden (Baumert et al., 2010; Becker, Lüdtke, Trautwein, Köller, 
& Baumert, 2012; Guill, Lüdtke, & Köller, 2017; Rjosk, Richter, Hochweber, 
Lüdtke, & Stanat, 2015), gleichzeitig aber Kompositions- und Schulformeffekte 
im deutschen System zwar stark aufeinander bezogen, aber nicht gleichzu- 
setzen sind. Entsprechend ist konzeptuell und empirisch zu unterscheiden, 
welche Effekte insgesamt mit der Komposition einhergehen, welche peer-Ef- 
fekte zusammen mit und unabhängig von den Schulformeffekten auftreten. 

Die jüngsten zusammenfassenden Analysen hierzu finden sich in der 
Arbeit von Becker et al. (2022), die auch die vorangehenden Überlegungen 
zur Messreliabilität aufnehmen und versuchen, diese Art von Effekten in 
einem einheitlichen Framework zusammenzufassen. In der Arbeit wird 
einerseits methodisch geprüft, wie die Berücksichtigung der Reliabilitäten 
(einerseits der Messinstrumente, andererseits des Samplings von L1-Einhei- 
ten) die Schätzungen längsschnittlicher Leistungskompositionseffekte (über 
ein Schuljahr) beeinflussen und welche Rolle andererseits das Spezifikum 
eines gegliederten Schulsystems spielt. Die Arbeit wurde als eine integra- 
tive Datenanalyse (IDA; Curran & Husson, 2009) angelegt und beinhaltet 
Modellschätzungen auf Basis mehrerer längsschnittlicher large-scale-Stu- 
dien (BIJU, DESI, ELEMENT, PISA-Plus2003-2004, PISA Plus 2012-2013; 
für Details vgl. Tabelle 2). Für jede dieser Studien wurden Modelle spezifi- 
ziert, in denen (1) der Messfehler ignoriert, (2) der Messfehler auf individuel- 
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ler Ebene bzw. (3) aufindividueller und Klassenebene modelliert wurde (vgl. 
Abbildung 2), sowie zwei weitere Modelle, (4) in denen neben der Ausgangs- 
leistung zusätzlich zentrale individuelle Kovariaten für eine starke Kont- 
rolle der Eingangsselektivität und (5) die Schulform zur Differenzierung 
der absoluten Kompositionseffekte kontrolliert wurde (vgl. Abbildung 3). 
Die Analysen der einzelnen Studien wurden dann in der IDA (ähnlich einer 
Metaanalyse) zusammengefasst. 


Tabelle 2: Übersicht über die Studien, die für die Schätzungen von 
Kompositionseffekten über jeweils ein Schuljahr in Becker et al. (2022) berücksichtigt 
wurden 


Studien- Klassen- 4 i A r 2 

kürzel stufe Schuljahr Studienpopulation Leistungsdomänen 
Schüler:innen der 7. Klasse in allgemeinbil- 
denden Sekundarschulen (Regelschulen) Biologie, Englisch (nur 

BIJU T 1991-1992 in 4 deutschen Bundesländern (Berlin, Nord-Rhein-Westphalen), 
Sachsen-Anhalt, Mecklenburg-Vorpom- Mathematik, Physik 
mern, Nordrhein-Westphalen) 
Schüler:innen der 9. Klasse in allgemeinbil- Leseverstehen Deutsch, 

DESI 9-10 2003-2004 denden Sekundarschulen (Regelschulen) in Englisch C-Test, Hörverste- 
allen deutschen Bundesländern hen Englisch 
Schüler:innen der 4., 5. und 6. Klasse in 

ELEMENT 4-5, 2003-2005 Grundschulen (in Berlin bis 6. Klasse) und LFSeYerstehen Deutsch, 

5-6 Mathematik 


grundständigen Gymnasien in Berlin 


Schüler:innen der 10. Klasse in allgemein- 


PISA PIUS 9-10 2003-2004 bildenden Sekundarschulen (Regelschu- Mathematik, Naturwissen- 

2003-2004 A k schaften (Gesamtscore) 
len) in allen deutschen Bundesländern 

PISA-Plus Schüler:innen der 9. Klasse in allgemeinbil- Leseverstehen Deutsch, 

2012-2013 9-10 2012-2013 denden Sekundarschulen (Regelschulen)in Mathematik, Naturwissen- 


allen deutschen Bundesländern schaften (Gesamtscore) 


Anmerkungen: BIJU = Bildungsverläufe und psychosoziale Entwicklung im Jugend- und jungen Erwach- 
senenalter, DESI = Deutsch Englisch Schülerleistungen International), ELEMENT = Erhebung zum Lese- 
und Mathematikverständnis: Entwicklungen in den Jahrgangsstufen 4 bis 6 in Berlin, PISA-Plus = Pro- 
gramme for International Student Assessment Plus. 


Die Ergebnisse der IDA lassen sich für das deutsche Schulsystem dahinge- 
hend zusammenfassen, dass auch hier die unterschiedliche Berücksichtigung 
der Reliabilität (auf L1 und L2) einen Einfluss hat, diese aber das Auftreten 
von Kompositionseffekten nicht vollständig erklären kann. Erwartungskon- 
form finden sich größere Kompositionseffekte, wenn Messfehler gänzlich 
unberücksichtigt bleiben, als wenn Messfehler auf individueller Ebene oder 
gleichzeitig auf individueller und Kompositionsebene berücksichtigt werden. 
Abbildung 2 gibt ein Bild davon, wie die Effekte über die Studien und Analy- 
sen hinweg variieren. Im Mittel zusammengefasst findet sich ohne Kontrolle 
von Messfehlern ein Effekt von b = 0.44 der mittleren Klassenleistung zu T1 
auf die individuelle Leistung zu T2 ein Schuljahr später nach Kontrolle der 
individuellen Leistung zu T1 (in Abb. 2: manifest-manifest); die Kontrolle des 
Messfehlers auf L1 macht den größten Unterschied und reduziert den Effekt 
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um mehr als die Hälfte auf b = 0.15 im latent-manifesten Modell. Werden 
beide Messfehler auf L1 und L2 berücksichtigt, bleibt der Effekt der mitt- 
leren Leistungskomposition mit b = 0.20 ähnlich (in Abb. 2: latent-latent). 
Man findet also in der Tat einen deutlichen Effekt der Schätzungen je nach 
Modellspezifikation und einen deutlichen Hinweis darauf, dass Schätzungen 
von Kontexteffekten vor allem positiv verzerrt sind, wenn der Messfehler der 
Individualdaten (L1) nicht berücksichtigt wird. 

In weiteren Modellierungen findet sich zudem ein Hinweis darauf, 
dass auch die zusätzliche Kontrolle weiterer sozialer und kognitiver Unter- 
schiede, und damit eine starke Kontrolle des selection bias, noch einmal 
einen Unterschied bedingt. Dieser (als absoluter Effekt der Leistungskom- 
position bezeichnete) Effekt fällt dann mit b = 0.13 noch einmal kleiner aus 
als wenn lediglich die Ausgangsleistung regressionsanalytisch kontrolliert 
wird. Werden schließlich die absoluten Kompositionseffekte weiter ausdiffe- 
renziertin einen Anteil der Kompositionsvariabilität, der mit der Schulform 
(tracking) konfundiert ist, und einen peer-Effekt im engeren Sinne (ohne 
Konfundierung mit systemischen Komponenten), so fällt der letztgenannte 
unter Kontrolle der Schulform mit b = 0.06 etwa halb so groß aus wie der 
absolute Kompositionseffekt (vgl. Abb. 3). Gleichzeitig findet sich nach wie 
vor ein statistisch bedeutsamer Kompositionseffekt als tracking-Effekt mit 
b = 0.14 (nicht in Abbildung 3 dargestellt). Die beiden Effekte bestehen im 
deutschen Schulsystem parallel nebeneinander. Ein mittlerer peer-Effekt 
ließ sich auch innerhalb der Schulformen nachweisen: sowohl innerhalb der 
Gymnasien als auch innerhalb der nicht-gymnasialen Schulformen zeigte 
sich jeweils ein peer-Effekt von b = 0.10 (nicht in Abbildung 3 dargestellt). 
Der peer-Effekt zeigt sich also nicht nur als gemittelter Effekt über die Schul- 
formen hinweg, sondern darüber hinaus auch innerhalb der Schulformen. 
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Abbildung 2: Kompositionseffekte der mittleren Leistung auf die individuelle Leis- 
tungsentwicklung mit unterschiedlich starker Kontrolle der Messfehler (keine Model- 
lierung der Messfehler = manifest-manifest; Modellierung der Reliabilität der Messin- 
strumente = latent-manifest, Modellierung der Reliabilität der Messinstrumente und 
des Samplings = latent-latent; nach Becker et al., 2022, S. 187) 
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Abbildung 3: Kompositionseffekte der mittleren Leistung auf die individuelle 
Leistungsentwicklung mit starker Kontrolle der individuellen Eingangsselektion und 
zusätzlich unter Kontrolle der Schulform (nach Becker et al., 2022, S. 188) 
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5. Diskussion und Ausblick 
5.1. Art und Größe von Kompositionseffekten 


Der vorliegende Beitrag hat sich mit der Frage nach den Wirkungen der Klas- 
senkomposition auf die Leistungsentwicklung beschäftigt. Es sollte aufeiner 
theoretischen Ebene verdeutlicht werden, dass die Wirkweise von Kompo- 
sitionen sehr vielfältig sein kann und multidimensional verstanden werden 
muss. Vor diesem Hintergrund greift die Frage des Effektes der Komposition 
zu kurz, da z.B. der mittlere peer-Effekt (als linear in means-Modell) nur 
ein Kompositionseffekt unter mehreren möglichen (und vermutlich parallel 
existierenden) Effekten ist, deren Existenz nicht zur Diskussion steht, da sie 
schon an verschiedener Stelle mit viel stärkeren kausaltheoretisch informier- 
ten Designs belegt werden konnte (vgl. u.a. Carrell & Hoekstra, 2010; Feld & 
Zölitz, 2017; Hoxby, 2000; Sacerdote, 2011). 

Die Frage nach dem Effekt der Komposition als mittlerer peer-Effekt greift 
auch dahingehend zu kurz, als dass mittlere Effekte der Komposition mit der 
gleichen Methodik in einigen Kontexten nachzuweisen sind (so wie im deut- 
schen Schulsystem), in anderen wie etwa den angelsächsischen Primarschul- 
systemen aber eher ausbleiben (Dicke et al., 2018; Televantou et al., 2021), 
und somit nicht unbedingt von einer allgegenwärtigen Existenz auszugehen 
ist. Hierbei ist eine weitere wichtige Erkenntnis, dass Fragen der Messreli- 
abilität auf verschiedenen Ebenen von großer Bedeutung sind, wenngleich 
messtheoretische Probleme und der möglicherweise differenzielle Umgang 
mit Messfehlern hierbei nicht die einzige (und möglicherweise nicht die zen- 
trale) Quelle sind, weshalb Effekte der Komposition unterschiedlich ausfal- 
len können. Die Analysen von Becker et al. (2022) legen zumindest nahe, 
dass selbst innerhalb des gleichen pädagogischen Kontextes (d.h. im deut- 
schen Schulsystem) und mit der gleichen Methodik deutliche Unterschiede 
zwischen den Studien auftraten. Diese Variabilität weiter zu erforschen ist, 
ein zentrales Desiderat, das sich aus diesen Arbeiten weiterführend ableitet. 

Sämtliche jüngere Arbeiten zu mittleren Kompositionseffekten auf die 
Leistungsentwicklungen legen darüber hinaus nahe, dass diese Effekte in 
jedem Fall relativ klein ausfallen; auch der gemittelte Effekt für das deutsche 
System stellt hiervon keine Ausnahme dar. Dies betrifft sowohl den absolu- 
ten Effekt der Leistungskomposition als auch die einzelnen Effektkompo- 
nenten, also die peer-Effekte im engeren Sinne und Kompositionseffekte, die 
mit der Schulform konfundiert sind (Becker et al., 2022). Bemerkenswer- 
terweise entspricht der Schätzwert des peer-Effektes im engeren Sinne für 
das deutsche Schulsystem mit d = 0.06 fast exakt dem Schätzwert, den auch 
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Hattie (2002) in seiner klassischen metaanalytischen Zusammenfassung für 
Kompositionseffekte auf Klassenebene geschätzt hatte (mit d = 0.05). 

Dies hat mehrere Implikationen: Nimmt man zunächst den mutmaßlich 
niedrigen absoluten Betrag der Effekte, so ist es entsprechend wenig überra- 
schend, dass diese Effekte immer wieder auch nicht gefunden werden, denn 
schon allein aufgrund eines Mangels an statistischer Power ist dies leicht 
möglich. Gerade MLM benötigen große Stichproben für die Detektion von 
L2-Effekten (vgl. z.B. Brunner et al., 2018). Das Problem numerisch kleiner 
Effekte scheint darüber hinaus mit einer großen Effektvariabilität zusam- 
menzukommen, wie zumindest die IDA für das deutsche System nahelegt. 
Dies könnte durch methodische Faktoren (z.B. Art der Leistungstestung), 
aber auch inhaltlich bedingt sein (z.B. dass Lesekompetenzen in der Sekun- 
darstufe weniger vom schulischen Kontext abhängen als mathematische 
Kompetenzen) oder z.B. peer- und tracking-Effekte je nach Domäne und 
Jahrgangsstufe in unterschiedlichen Anteilen überlagert sind. Welche dieser 
Faktoren hier zentral für die Unterschiede verantwortlich sind, kann ange- 
sichts der relativ geringen Zahl von Studien nicht abschließend geklärt wer- 
den. Es wird die Aufgabe zukünftiger Forschung sein, mit weiteren Arbeiten 
eine systematischere Analyse dieser Variabilität zu ermöglichen. 

Jedoch stellt sich auch die Frage nach der Größe des Effekts: Was heißt 
eigentlich „kleiner“ Effekt? Betrachtet man die Effekte zwischen d = 0.06 
und oder auch d = 0.13 verteilungstheoretisch, so überlappen sich die Vertei- 
lungen fast vollständig und werden deswegen gemeinhin als kleine Effekte 
kategorisiert (Cohen, 1988). Andererseits muss bedacht werden, dass dies 
nur der Effekt eines Schuljahres ist, der sich aber im Verlauf der Schulzeit 
kumuliert - über die Sekundarstufe I gedacht wäre entsprechend von der 5. 
bis 10. Klassenstufe ein größerer Effekt zu erwarten. Zudem legt man zumin- 
dest in der Schulforschung für die Leistung und Leistungsveränderung noch 
andere, inhaltlich gut begründbare Maße an, z.B. die Veränderung inner- 
halb eines Schuljahres. Ein solcher (absoluter) Lernzuwachs wird je nach 
Altersstufe und Domäne für eher jüngere Schüler:innen in der Grundschule 
auf Effekte zwischen d = 0.5 und 0.8 geschätzt, für eher ältere Schüler:innen 
in der Sekundarstufe auf d = 0.2 und 0.4 (Bloom, Hill, Black, & Lipsey, 2008; 
Lanahan, McGrath, McLaughlin, Burian-Fitzgerald, & Salganik, 2005). 

Relativ hierzu sind Schätzwerte zwischen d = 0.06 und d = 0.13 für die 
unterschiedlichen Kompositionseffekte im deutschen Schulsystem wiede- 
rum als vergleichsweise groß bzw. bedeutsam zu bewerten. Größere Effekte 
des Kontextes zu finden, wäre unter dieser Perspektive somit eher nicht zu 
erwarten. Zwar sind derlei absolute Approximationen für den Lernzuwachs 
über die Zeit (und konsekutiv ausgedrückt in Schuljahren) auch mit Vorsicht 
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zu interpretieren, z.B. aufgrund der Problematik, wie Metriken über die Zeit 
verlinkt werden und dadurch sehr stark variieren können (vgl. z.B. Briggs & 
Weeks, 2009). Für die Bewertung des Verhältnisses zwischen individuellem 
Zuwachs und Beitrag des Klassenkontexts sollte diese Kritik aber eher von 
untergeordneter Bedeutung sein, da nicht die absoluten Effekte interpretiert 
werden. 


5.2. Interpretation der Kompositionseffekte 


Becker et al. (2022) liefern einen Hinweis dafür, dass im deutschen Schulsystem 
einerseits von einem Effekt der Komposition auszugehen ist, andererseits ein 
relativ großer Anteil mit institutionellen Faktoren wie den unterschiedlichen 
Curricula an gymnasialen vs. nicht-gymnasialen Schulformen konfundiert ist. 
Dies geht konform mit der Vermutung, dass Effekte der Schülerkomposition 
genau dann besonders groß ausfallen, wenn sie mit anderen Faktoren wie 
z.B. Curriculumsvariationen zusammenkommen (Hattie, 2002; Schofield, 
2010). Dies liegt nahe, wenn man bedenkt, dass begleitende Maßnahmen 
wie Curriculumsdifferenzierung und unterschiedliche Instruktionen gerade 
deshalb eingeführt werden, damit unterschiedliche Leistungsniveaus und 
Ausgangsleistungen optimal gefördert werden können. Die Konfundierung 
dieser Faktoren ist entsprechend kein Nebenprodukt, sondern Hauptziel von 
tracking und somit bewusst hergestellter Variabilität der Komposition - und 
so wie es mit den Schulformen der gegliederten Schulsysteme im deutsch- 
sprachigen Raum explizit intendiert ist und auch international weitgehend, 
wenngleich in verschiedener Ausgestaltung, der Regelfall zu sein scheint 
(Chmielewski et al., 2013; Gamoran, 1992; Hallinan & Kubitschek, 1999). 
Für die deutsche Situation enthält Letzteres wiederum ein breiteres Bündel 
an Mechanismen und Maßnahmen, die miteinander konfundiert sind. Einige 
Aspekte der tracking-Effekte entsprechen hierbei genau dem, was theoretisch 
als Wirkung von peer-Effekten beschrieben wird - wenn etwa der Unter- 
richt und das Curriculum der Komposition angepasst werden. Duflo et al. 
(2011) haben gezeigt, dass in „natürlichen“ Settings ebenfalls Anpassungen 
des Curriculums als spontane Reaktionen auftreten, wenn die Lehrkräfte mit 
unterschiedlichen Fähigkeitsniveaus und Homogenisierungsgraden der Lern- 
gruppen konfrontiert sind. Wenngleich sich diese Aspekte rein konzeptuell 
unterscheiden lassen, wäre es funktional zu einem gewissen Grad arbiträr, 
ob eine solche Anpassung institutionell oder spontan-situativ vollzogen wird. 
Der Unterschied wäre entsprechend eher dort zu suchen, wo die Reaktionen 
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situativ auftreten oder strukturell präarrangiert sind. Hier zeigen sich diese 
Effekte kaum voneinander abgrenzbar bzw. ambivalent in ihrer Interpretation. 

Andererseits können auch institutionelle Aspekte zu tracking-Effekten 
beitragen, die inhärent nicht direkt oder nur äußerst distal den Mechanis- 
men von peer-Effekten entsprächen, z.B. die stärkere Betonung des Fach- 
lehrkraftprinzips an Gymnasien oder Traditionen der Lehrkräftebildung. 
Mitunter ist auch hier eine gewisse Ambivalenz dahingehend enthalten, 
ob dies lediglich als institutionelle Differenz auszulegen ist oder nicht eben 
auch zu Unterschieden im Unterricht in Bezug auf die Komposition führt 
(vgl. auch Baumert et al., 2010). Empirisch ist es jedoch aufgrund der starken 
Konfundierung grundsätzlich in diesen Facetten schwierig, peer-bezogene 
und institutionelle Arrangements weiter auszudifferenzieren bzw. analy- 
tisch zu separieren. In der weiteren Forschung könnte man sich diesen Fra- 
gen beispielsweise nähern, wenn z.B. Schulsysteme durch die Einführung 
neuer Curricula reformiert werden ohne darüber hinaus weitere Aspekte des 
Schulsystems zu verändern. 

Für die Analyse von peer-Effekten verweist das hier Vorgestellte auf 
ein grundsätzliches Problem dieser Art von peer-Forschung, vor allem im 
MLM-Paradigma: Interessiert man sich für reine peer-Effekte und versucht 
gerade diese kausal eindeutig zu belegen, dann interessiert man sich unter 
Umständen für einen Teil der Komposition, der eigentlich den geringsten 
und am wenigsten wirksamen Teil ausmacht: wenn mit Faktoren wie dem 
Curriculum bzw. den Lernzielen nicht auf die Komposition reagiert wird. 
Gerade wenn das Interesse ausschließlich an diesen engen Effekten besteht, 
ist möglicherweise das deutsche Schulsystem ein weniger gut geeignetes 
Feld, um dies zu untersuchen. Gleichzeitig stellt sich die Frage, ob den (kau- 
saltheoretisch) konfundierten Faktoren aus einer pädagogischen Perspek- 
tive, die die praktische Arbeit in den Schulen im Blick hat, nicht eigentlich 
das Hauptaugenmerk gebühren sollte. 

Neben den eben genannten Fragen der Interpretation sind auch eine 
Reihe methodisch-inhaltlicher Fragen offen, insbesondere inwiefern sicher- 
gestellt werden kann, dass im MLM-Paradigma Kompositionseffekte valide 
identifiziert werden. Grundsätzlich gilt zu konstatieren, dass das MLM-Pa- 
radigma sowie andere nicht-experimentelle Methoden von einer gewissen 
Unsicherheit dahingehend begleitet sind, ob die resultierenden Schätzwerte 
kausal interpretiert werden können. Es kommt stets in Betracht, dass es 
doch noch weitere unbeobachtete Faktoren gibt, die nicht kontrolliert wur- 
den (Morgan & Winship, 2015; Reardon & Owens, 2014; Rosenbaum, 2002). 
Becker etal. (2022) diskutieren darüber hinaus, dass der Test von Komposi- 
tionseffekten mit MLM auch dahingehend eingeschränkt ist, dass sich mit 
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linear-in-means-Modellen nur beschränkt unterschiedliche Prozesse von- 
einander trennen lassen. So bleibt es auch ambivalent, wie genau der Effekt 
durch die Komposition - auch des peer-Effektes im engeren Sinne, wo er 
nicht mit der schulischen Gliederung konfundiert ist - verursacht wurde, 
z.B. ob durch peer contagion, durch Instruktionsprozesse als Reaktion der 
Lehrkräfte auf die Komposition oder durch eine Wechselwirkung dieser 
Prozesse (vgl. kritisch Reardon & Owens, 2014). Obwohl dies nicht kausal- 
theoretisch geklärt werden kann, ist es dennoch möglich, unterschiedliche 
Varianzquellen zu schätzen, was im Ansatz, den Becker et al. (2022) gewählt 
haben, durch die Trennung von tracking-assoziierten von im engeren Sinne 
peer-bezogenen Effekten realisiert wurde; in der Literatur finden sich hierzu 
auch andere Beispiele, etwa für die Trennung von Instruktions- und im 
engeren peer-bezogenen Effekten (Lavrijsen, Dockx, Struyf, & Verschue- 
ren, 2022). Allerdings bleibt es bei diesen Ansätzen bei einer Zerlegung der 
Varianz; um die Prozesse selbst näher zu erfassen, müssen andere Metho- 
den hinzugezogen werden, die einzelne Komponenten auf Prozessebene 
identifizierbar machen. Im Falle von peer-Effekten ließen sich etwa Netz- 
werkanalysen heranziehen, in denen man tatsächlich die Interaktionen und 
Beziehungen der Schüler:innen nachzeichnet (Rambaran et al., 2017; Ryan, 
2001). Potenziell kann hier wiederum die Problematik auftreten, dass die 
weitere Differenzierung der Effekte dazu führt, dass die Effekte immer klei- 
ner werden - prototypisch belegen dies auch die Analysen aus Becker et al. 
(2022), wenn der etwas größere absolute Effekt der Leistungskomposition 
in die zwei genannten Subkomponenten differenziert wird. Möglicherweise 
führt dies wiederum zu einem trade-off zwischen aufwändigeren Designs, 
die Prozessanalysen erlauben, und der verfügbaren statistischen Power, die 
durch die Berücksichtigung einer Vielzahl von Faktoren reduziert wird. 
Nichtsdestotrotz erscheinen derlei Analysen auch dahingehend lohnens- 
wert, da der Blick auf den Effekt der mittleren Leistung und linear-in-me- 
ans Modellen auch Effektheterogenitäten und Interaktionseffekte verde- 
cken kann (vgl. auch oben, Tab. 1). Die Frage nach Interaktionseffekten, 
also danach, ob unterschiedliche Gruppen von Schüler:innen differenziell 
vom Leistungsniveau (oder der Leistungsverteilung generell) profitieren, ist 
gemäß dieser Ergebnisse eine weitere wichtige Fragestellung nach Komposi- 
tionseffekten (vgl. auch Rjosk, 2022). So konnten Lavrijsen et al. (2022) zei- 
gen, dass im flämischen Schulsystem bei sehr geringen mittleren Effekten 
die Effekte für Subgruppen unterschiedlich ausfielen und leistungsstarke 
Schülerinnen von leistungsstarken Klassen stärker profitieren konnten, 
aber eben auf Kosten dessen, dass sich Schüler:innen in leistungsschwachen 
Klassen weniger günstig entwickelten. Hierdurch neutralisierten sich insge- 
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samt die differenziellen Effekte zu einem kleineren mittleren Effekt. Im Hin- 
blick auf solche Interaktionen wurde die Literatur tendenziell dahingehend 
zusammengefasst, dass leistungsschwächere Schüler:innen von gemischten 
und damit einem insgesamt im Mittel höheren Leistungsniveau profitierten, 
während leistungsstärkere Schüler:innen von leistungsstärkeren und damit 
leistungshomogeneren Gruppen profitierten (Kulik & Kulik, 1992; Rjosk, 
2022; Sacerdote, 2011; Schofield, 2010). Allerdings ist das Effektmuster sehr 
heterogen: Es finden sich beispielsweise auch Studien, die zeigen, dass die 
weniger leistungsstarken Schüler:innen von einem hohen Leistungsniveau 
profitierten (De Fraine, Van Damme, Van Landeghem, & Opdenakker, 2003; 
Duflo et al., 2011), ebenso solche, die keinerlei Hinweise auf Interaktionsef- 
fekte erbringen (Hanushek et al., 2003) oder auch einige die belegen, dass die 
Anwesenheit von leistungsstärkeren Schüler:innen zu ungünstigeren Leis- 
tungsentwicklungen der leistungsschwächeren Schüler:innen führen (Feld 
& Zölitz, 2017). Es steht auch zu vermuten, dass diese Interaktionseffekte 
analog zu den Haupteffekten eine deutliche Variabilität aufweisen (sei es 
inhaltlich oder methodisch bedingt), was es angesichts der wenigen Studien, 
die hierzu bislang vorliegen, schwierig macht, ein klares Fazit zu ziehen. 
Auch hier muss künftige Forschung weitere Beschreibungen und Differen- 
zierungen erbringen, wovon genau diese Effektheterogenität abhängt (z.B. 
Domäne, Altersgruppen, Art der Kontexte). 


5.3. Ausblick 


Am Beispiel der jüngeren Analysen zu mittleren Kompositions- und peer-Ef- 
fekten im deutschen System zielte dieser Beitrag darauf ab, die Diskussion 
um Kompositionseffekte zu weiten und entsprechend breiter zu kontextuali- 
sieren. Zu den beschriebenen Perspektiven, vor allem auf die Variabilität der 
Effekte, schließen sich für die weitere Forschung auch Fragen an, die sich im 
Wesentlichen auf die Multidimensionalität der Effekte für eine pädagogische 
Bewertung beziehen. Der vorliegende Beitrag beschränkte sich auf Kompo- 
sitionseffekte auf die Leistungsentwicklung, um die wesentlichen konzepti- 
onellen und methodischen Punkte zu erläutern und herauszuarbeiten. Geht 
es in einem nächsten Schritt auch darum zu fragen, welche Bedeutung der 
Komposition beziehungsweise, breiter gesprochen, dem Kontext für die indi- 
viduelle Entwicklung zukommt, müssten auch weitere Perspektiven, vor allem 
hinsichtlich der Bildungserträge, eingenommen werden. Betrachtet man z.B. 
nicht nur die Leistungen, sondern auch psychosoziale Outcomes, wie etwa 
das akademische Selbstkonzept, so ist ein komplizierteres Effektmuster zu 
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erwarten, weil möglicherweise positive Effekte (z.B. auf die Leistungsent- 
wicklung) mit negativen Effekten (z.B. auf das Selbstkonzept) kontrastieren. 
Hier schließt sich auch die Frage an, wie sich derlei Entwicklungen gemeinsam 
über die Zeit abbilden - wo möglicherweise positive Effekte längerfristigen 
Kosten gegenüberstehen, was eine bislang kaum adressierte Frage ist (siehe 
aber Dumont, Protsch, Jansen, & Becker, 2017; Stäbler, Dumont, Becker, & 
Baumert, 2017). Ebenso ist weitgehend ungeklärt, wie sich diese Entwicklun- 
gen über unterschiedliche Übergänge und Kontexte hinweg abbilden (siehe 
aber Becker & Neumann, 2018; von Keyserlingk, Becker, & Jansen, 2019) und 
neben den Prozessen in der Schulzeit selbst auf die nachfolgenden Über- 
gänge und Entwicklungen übertragen (Jansen, Becker, & Neumann, 2021; 
von Keyserlingk, Becker, Jansen, & Maaz, 2020). Diese eher übergreifenden 
Fragestellungen wurden bislang insgesamt noch wenig adressiert und müssen 
in der nachfolgenden Forschung weiter systematisiert werden. 

Hier ist auch im Blick zu behalten, welche Effekte tatsächlich von der 
Komposition (universell) ausgehen und inwiefern Faktoren pädagogisch 
unterschiedlich adressiert und modifiziert werden können. Zum Beispiel 
konnten Lavrijsen et al. (2022) zeigen, dass der Umgang der Lehrkräfte 
mit der Heterogenität der Klasse einen bedeutsameren Effekt hatte als die 
Heterogenität der Klasse selbst. In weiterem Sinne ist dies ein Echo des- 
sen, worauf auch Hattie (2002, 2009) verwies, dass diese strukturelle Frage 
möglicherweise weniger bedeutsam ist als der pädagogische Umgang mit 
ihr im Unterricht. Gerade jüngere Reformen, in denen man sich allein auf 
die Reform der Strukturen beschränkte, aber wenig für eine pädagogische 
Umsetzung und Nutzbarmachung vorhielt, zeigten entsprechend dieser 
Überlegungen eher keine, in Teilen sogar ungünstigere Effekte auf die Ent- 
wicklung der Schüler:innen und des Systems (Baumert, Maaz, Neumann, 
Becker, & Dumont, 2017; Baumert et al., 2019; Becker et al., 2017). Möglicher- 
weise sind diese negativen und ungünstigen Effekte von derlei Strukturre- 
formen transitorisch und allein durch die Kosten der Umstellung begründet. 
Nichtsdestotrotz verweisen sie einmal mehr auf das Primat der Instruktion 
und die zentrale Stellung, die der pädagogische Umgang mit Heterogenität 
im Unterricht einnimmt. 
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Zusammenfassung 


Internationale groß angelegte Schulleistungsstudien bieten neben dem 
Vergleich der Kompetenzen von Schülerinnen und Schülern auch die 
Möglichkeit, Lernbedingungen zu analysieren und zu vergleichen. Mit 
dem vorliegenden 15-Jahres-Trend der Internationalen Grundschul-Le- 
se-Untersuchung (IGLU) werden die Zusammensetzung der Schülerschaft, 
häusliche Ressourcen, die Computernutzung in der Schule, Einstellungen 
zur Schule und die Einstellung zum Lesen als zentrale Lernbedingungen 
von Viertklässlerinnen und Viertklässlern in Deutschland, Frankreich, 
den Niederlanden, Schweden und den USA verglichen. Der internationale 
Vergleich zeigt, dass Deutschland sowohl hinsichtlich digitalisierungsbezo- 
gener Aspekte als auch hinsichtlich der Einstellungen zur Schule hinter den 
anderen Staaten zurückliegt. Die Ergebnisse liefern Hinweise für zukünf- 
tige Bemühungen einer Verbesserung der Bedingungen des Lesenlernens 
in Deutschland. 


Schlagworte: Bedingungen des Lesenlernens im Trend und im internatio- 
nalen Vergleich; Ressourcen häuslicher Lernumgebungen; Unterrichts- und 
individuelle Merkmale; Einstellungen zur Schule und zum Lesen 
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Abstract 


International large-scale assessments of student achievement not only pro- 
vide the possibility of comparing student achievement, but also provide 
the possibility to analyze students learning conditions. Using the available 
15-year trend data from the Progress in International Reading Literacy 
Study (PIRLS), important aspects of fourth graders‘ learning conditions 
regarding student composition, home environmental resources, computer 
usage at school, attitudes towards school and attitudes towards reading in 
Germany, France, the Netherlands, Sweden and the USA are compared. The 
international comparison shows that Germany is lagging behind the other 
states regarding the aspects of digitalization as well as attitudes towards 
school. The results provide clues for future efforts on enhancing the learn- 
ing conditions of reading in Germany. 


Keywords: conditions of learning to read in trend and in international 
comparison; home environmental resources; Instructional and individual 
characteristics; attitudes towards school and reading 


1. Einleitung - 15 Jahre IGLU 


Die Internationale Grundschul-Lese-Untersuchung (IGLU; international 
bekannt als Progress in International Reading Literacy Study [PIRLS]) wurde 
im Jahr 2001 zum ersten Mal und seitdem alle fünf Jahre durchgeführt (Bos 
et al., 2003; Bos et al., 2007; Bos et al., 2012; Hußmann et al., 2017). Im Fokus 
von IGLU steht die Erfassung der Lesekompetenz von Schülerinnen und 
Schülern am Ende der vierten Jahrgangsstufe im Trend und im internati- 
onalen Vergleich. Damit kommt der Studie in besonderem Maße Relevanz 
zu, da sie die für den weiteren Schulverlauf grundlegende Lesekompetenz an 
einer wichtigen Gelenkstelle des Schulsystems erfasst und eine solide empi- 
rische Grundlage bereitstellt, um die Bedingungen des Lesenlernens in der 
Grundschule zu beschreiben. 

Wie in großangelegten Schulleistungsuntersuchungen mit Fokus auf 
domänenspezifischen Kompetenzen üblich, liegt IGLU ein umfassend aus- 
gearbeitetes Verständnis von Lesekompetenz zugrunde, dasan den aktuellen 
Stand der Forschung zur Lesekompetenz anknüpft und auf dem anglo-ame- 
rikanischen Literacy-Konzept beruht. Der Erwerb von Lesekompetenz 
wird als Voraussetzung für erfolgreiches Lernen in weiteren Schulfächern 
sowie für den gesamten weiteren Bildungs- und Lebensweg von Schülerin- 
nen und Schülern betrachtet (Savolainen et al., 2008). In IGLU wird unter 
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Lesekompetenz die Fähigkeit verstanden, Texte verstehen und nutzen zu 
können, die gesellschaftlichen und/oder individuell von Bedeutung sind. 
Bei der Erfassung der Lesekompetenz mittels Lesetests werden zum einen 
vier Leseverstehensprozesse und zum anderen zwei Leseintentionen berück- 
sichtigt (Bremerich-Vos et al., 2017; Mullis & Martin, 2019). Da der Erwerb 
und die Entwicklung von Lesekompetenz von Grundschulkindern in viel- 
faltige Bedingungen eingebettet sind, werden in IGLU mittels Fragebögen 
für die Schülerinnen und Schüler selbst sowie für deren Kontextpersonen 
(Eltern, Lehrkräfte und Schulleitungen) umfassende Informationen erho- 
ben. Gemäß der theoretischen Rahmenkonzeption von IGLU finden Erwerb 
und Entwicklung von Lesekompetenz vor dem Hintergrund gesellschaftli- 
cher Ausgangsbedingungen sowohl im schulischen als auch im außerschu- 
lischen Kontext unter familiären und individuellen Bedingungen statt. Ent- 
sprechend sind die Inhalte der Befragungen breit gefächert und umfassen 
neben spezifisch lesebezogenen Aspekten wie beispielsweise dem Lesever- 
halten auch weitere Aspekte der schulischen und außerschulischen Lernum- 
welt oder demographische Aspekte. Hier knüpft der vorliegende Beitrag an, 
der das Ziel verfolgt, zentrale Bedingungen des Erwerbs der Lesekompetenz 
im Trend und im Vergleich zwischen ausgewählten Bildungssystemen zu 
vergleichen. 

Mit den Daten der IGLU-Zyklen 2001 bis 2016 liegt bereits die Mög- 
lichkeit vor, Entwicklungen der Lernbedingungen von Schülerinnen und 
Schülern am Ende der Grundschulzeit über einen Zeitraum von 15 Jahren 
zu betrachten. Wenngleich IGLU als Trendstudie mit wiederholten Quer- 
schnittserhebungen angelegt ist, unterliegen die eingesetzten Erhebungsin- 
strumente einschließlich der kontinuierlichen Anpassungen, nicht zuletzt 
auch zur angemessenen Berücksichtigung von Veränderungen in schuli- 
schen und gesellschaftlichen Kontexten. 

Zusätzlich zu inhaltlichen und methodischen Anpassungen, die seit 
IGLU 2001 umgesetzt wurden, ist zu beachten, dass die Liste an Teilneh- 
merstaaten und -regionen der Studie nicht über alle IGLU-Erhebungszyklen 
hinweg identisch sind. Internationale Vergleiche aus der Perspektive eines 
Trends über 15 Jahre sind demnach nur mit Fokus auf Teilnehmerstaaten 
und -regionen sowie zu Untersuchungsgegenständen möglich, die über alle 
Erhebungszyklen konstant waren. Vor diesem Hintergrund wurden im vor- 
liegenden Beitrag Bedingungsfaktoren des Lesenlernens berücksichtigt, die 
der theoretischen Rahmenkonzeption von IGLU folgend gesellschaftliche, 
schulische, familiäre und individuelle Faktoren berücksichtigen, die mit der 
Leseleistung am Ende der Grundschulzeit verbunden sind. Leitend ist dabei 
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die Frage nach Veränderungen dieser Bedingungen über die Zeit hinweg und 
nach Unterschieden im Trend im Vergleich ausgewählter Bildungssysteme. 


2. Zentrale Bedingungsfaktoren der Lesekompetenz 


Eine Systematisierung von Bedingungsfaktoren, die im Zusammenhang mit 
der Lesekompetenz stehen, kann in IGLU in unterschiedliche Facetten des 
gesellschaftlichen, schulischen und familiären sowie individuellen Kontextes 
unterteilt werden (Ditton, 2016; Hufmann et al., 2017; McElvany, Becker & 
Lüdtke, 2009). In diesen Bereichen sind relevante Bedingungen zu betrachten, 
die die Entwicklung der Lesekompetenz von Grundschulkindern beeinflussen 
können, was auf gesellschaftlicher Ebene beispielsweise Veränderungen in der 
Schülerschaft oder die fortschreitende Digitalisierung aller Lebensbereiche 
umfasst. Letztere hat wiederum auch in Schulen und im Unterricht zu Ver- 
änderungen beigetragen, die die unterrichtlichen Lernbedingungen wandeln. 
Zu den familiären sowie individuellen Faktoren zählen neben strukturellen 
Merkmalen wie z.B. einem möglichen familiären Migrationshintergrund 
oder dem soziokulturellen Kapital der Familie auch Ressourcen der außer- 
schulischen Lernumwelt oder auch individuelle Einstellungen zur Schule im 
Allgemeinen oder zum Thema Lesen. 


2.1. Zusammensetzung der Schülerschaft 


Familiäre Bedingungen gelten als zentrale Determinanten der Schulleistung 
(Helmke & Weinert, 1997) und es liegen verschiedene Theorien zur Erklärung 
dieses Verhältnisses vor (z.B. primäre und sekundäre Herkunftseffekte nach 
Boudon, 1974; Kapitalsorten nach Bourdieu, 1983). Lesebezogene Modelle 
konnten die Bedeutung der familiären Lesesozialisation für die Kompetenz- 
entwicklung in der Domäne des Lesens herausstellen (Senechal & LeFevre, 
2002). Es ist anzunehmen, dass diese Unterschiede in der familiären Leseso- 
zialisation einen Beitrag zur Erklärung des international belegten, systema- 
tischen Zusammenhangs zwischen der Lesekompetenz und familiären Hin- 
tergrundmerkmalen wie dem soziokulturellen Kapital und einem möglichen 
Migrationshintergrund leisten können (Mullis et al., 2017). 

Hinsichtlich des soziokulturellen Kapitals konnten Untersuchungen zei- 
gen, dass Eltern mit höheren Bildungsabschlüssen aufgrund eigener Erfah- 
rungen mit dem Bildungssystem erfolgreicher darin sind, ihre Kinder zu 
unterstützen, indem sie eine lesesozialisationsförderliche Lernumwelt bieten 
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(Dong et al, 2020). Die Anzahl der im Haushalt vorhandenen Bücher hat sich 
in der empirischen Bildungsforschung als ein Indikator für das soziokultu- 
relle Kapital bewährt, der zugleich einfach zu erheben und aussagekräftig ist 
(Schwippert, 2019). Hinsichtlich eines internationalen Vergleichs im Trend 
über 15 Jahre bietet sich die Anzahl der im Haushalt vorhandenen Bücher als 
geeigneter Indikator des soziokulturellen Kapitals an, da diese Information 
über alle IGLU-Zyklen hinweg in allen Teilnehmerstaaten und -regionen 
unverändert erfasst wurde. 

Neben dem soziokulturellen Kapital der Eltern hängt auch ihr Migra- 
tionshintergrund mit der Lesekompetenz von Schülerinnen und Schülern 
zusammen (Mullis, Martin, Foy & Hooper, 2017). Eltern mit Migrationshin- 
tergrund messen der Bildung ihrer Kinder häufig einen hohen Wert bei (Kao 
& Tienda, 1995). Gleichzeitig verfügen sie aber häufig über weniger soziokul- 
turelles Kapital und Erfahrungen mit dem Bildungssystem des Landes, in 
dem ihre Kinder die Schule besuchen, und sprechen darüber hinaus häufig 
mit ihren Kindern eine andere Sprache als die Unterrichtssprache (Kristen 
& Dollmann, 2012). Die zu Hause gesprochene Sprache ist daher ein weit 
verbreiteter Indikator für einen Migrationshintergrund, der auch in allen 
bisherigen IGLU-Zyklen international eingesetzt wurde. 

Lesebezogene Leistungsrückstände von Kindern aus Familien mit nied- 
rigerem soziokulturellen Kapital und von Kindern aus Familien mit Migra- 
tionshintergrund liegen in den meisten IGLU-Teilnehmerstaaten und -regi- 
onen vor (Mullis et al., 2017). In Deutschland ist es seit IGLU 2001 nicht 
gelungen, die Disparitäten zu reduzieren (Hußmann et al., 2017). Daher ist 
es von Interesse, die Trends zu diesen relevanten Indikatoren seit IGLU 2001 
in Deutschland und im Vergleich in weiteren Staaten zu betrachten. 


2.2. Lernbedingungen - Ressourcen häuslicher Lernumwelt 


Neben individuellen Merkmalen der Schülerinnen und Schüler sowie deren 
Familien ist für die Unterstützung von Lernprozessen auch die außerschuli- 
sche häusliche Ausstattung ein wichtiger Bedingungsfaktor für Lernerträge 
und die Kompetenzentwicklung (Ditton, 2016; McElvany, Becker & Lüdtke, 
2009). Da ein Teil des Lernprozesses beispielsweise im Rahmen der Bearbei- 
tung von Hausaufgaben oder der Vorbereitung auf Tests im häuslichen Umfeld 
stattfindet, stellt ein Arbeitsplatz, an dem ein Kind ruhig arbeiten kann, eine 
bedeutsame Ressource dar. So erfasst IGLU im internationalen Vergleich die 
Angabe der Schülerinnen und Schüler, ob ein Schreibtisch oder anderer Tisch 
zum Arbeiten für das Kind zu Hause zur Verfügung steht. 
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Neben dieser Ressource ist in der heutigen schnelllebigen Welt, die auch 
durch das Vordringen der digitalen Technologien in alle Lebensbereiche 
gekennzeichnet ist, die Relevanz digitaler Medien in Bildungskontexten 
gestiegen (Eickelmann et al., 2019; Voogt, Knezek, Christensen & Lai, 2018), 
was nicht zuletzt auch durch veränderte Lernformen während der Coro- 
na-Pandemie beschleunigt wurde (Huber, 2021; Lorenz, Brüggemann, Stang 
& McElvany, in Druck). Der Einsatz von Computern, Laptops oder Tablets 
sowie internetbasierten Arbeitsweisen im Unterricht und auch in außerschu- 
lischen Settings eröffnet somit neben dem papierbasierten Lesen erweiterte 
Leseanlässe für Grundschulkinder, die als Bedingungen des Lesenlernens 
eine wesentliche Rolle einnehmen können und u.a. als motivierend oder 
unter bestimmten Voraussetzungen der Nutzungsweisen als lernförderlich 
angesehen werden (Mangen & van der Weel, 2016; Schaumburg, 2018; Zie- 
rer, 2020). Die Leseanlässe mit digitalen Medien umfassen Informationen, 
die schriftsprachlich repräsentiert sind, sodass die Lesekompetenz von Kin- 
dern für das Textverstehen, das Lokalisieren relevanter Informationen, das 
Bewerten von Inhalten oder das Reflektieren der Texte ebenfalls erforderlich 
ist und dadurch die Weiterentwicklung der Lesekompetenz selbst fördern 
kann. Für die Beschreibung der Computernutzung sowie den Zugang zu 
medial vermittelten Informationen als Lernbedingung von Kindern ist eine 
Internetverfügbarkeit als grundlegender Bedingungsfaktor im Sinne von 
Ausstattungsmerkmalen zu benennen. 


2.3. Lernbedingungen - Computernutzung 


Nicht nur die bloße Verfügbarkeit von Computern und Internet als Vorausset- 
zung von Lernprozessen, sondern auch die Nutzung von Computern durch die 
Kinder selbst istin den Blick zu nehmen (Lorenz & Bos, 2017). Theoretische 
Modelle des Leseverstehens betrachten das Zusammenspiel von individu- 
ellen Merkmalen, Textinhalt und -gestaltung sowie Leseanweisungen (u.a. 
McNamara & Magliano, 2009) und empirische Befunde legen Hinweise vor, 
dass Leseergebnisse durch das Medium beeinflusst werden. Mit ihrer Meta- 
analyse zeigten Delgado, Vargas, Ackerman und Salmerön (2018), dass mit 
digitalen Texten im Vergleich zu papierbasierten Lesetexten ein schlechteres 
Leseverständnis resultierte, was mit der Implikation einer besseren Vorberei- 
tung auf das Lesen in zunehmend digitalen Umgebungen diskutiert wurde. 
Damit rücken auf der Prozessebene quantitative und qualitative Merkmale 
der Computernutzung in den Fokus, was sowohl die Nutzungshäufigkeit 
als quantitatives Merkmal umfasst sowie die Nutzungsweisen und -zwecke 
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als Indikator der Qualität der Nutzung. Dabei kann unterschieden werden, 
wo der Einsatz von Computern erfolgt: zu Hause oder in der Schule. Mit 
Blick auf die Nutzungshäufigkeit von Computern im Unterricht können erste 
Rückschlüsse auf die Unterrichtsgestaltung bzw. unterrichtlichen Prozesse 
gezogen werden, sodass die Häufigkeit der Computernutzung in der Schule 
als eine bedeutsame Lernbedingung angesehen werden kann. Diese kann dazu 
dienen, die Lernbedingungen der Schülerinnen und Schüler im Kontext der 
Lesekompetenz zu erfassen. 


2.4. Lernbedingungen - Einstellungen zur Schule 


Ein weiterer Aspekt, der neben den materiellen Ressourcen, die von der Schule 
zur Verfügung gestellt werden, eine wichtige Rolle bei Lernprozessen spielt, 
ist, inwiefern die schulischen Rahmenbedingungen den Bedürfnissen der 
Schülerinnen und Schüler entsprechen. Ein Indikator für diese Passung, bietet 
das Wohlbefinden der Schülerinnen und Schüler. Fühlen sie sich in der Schule 
wohl, kann dies positive Effekte auf deren spätere Leistung haben (Klein- 
korres, Stang & McElvany, 2020; Mega, Ronconi & De Beni, 2014). Darüber 
hinaus wird das schulische Wohlbefinden aber auch als ein inhärentes Ziel von 
Bildungsarbeit betrachtet (Kanonire, Federiakan & Uglanova, 2020; OECD, 
2017). Die Einstellungen der Schülerinnen und Schüler gegenüber dem Kon- 
text Schule stellen einen wichtigen Teilaspekt des schulischen Wohlbefindens 
dar (Hascher, 2004; Huebner & Gilman, 2006). In IGLU werden die Einstel- 
lungen gegenüber der Schule darüber erfasst, wie gerne die Schülerinnen und 
Schüler zur Schule gehen. Darüber hinaus wird erhoben, wie sicher sie sich 
in der Schule fühlen. 

Die Betrachtung dieser beiden Variablen ermöglicht es, Erkenntnisse 
über die Passung zwischen den Bedürfnissen der Schülerinnen und Schüler 
und den schulischen Rahmenbedingungen zu gewinnen bzw. zu untersu- 
chen, ob die Schülerinnen und Schüler sich in einem Umfeld wiederfinden, 
das ihnen eine angemessene Lernatmosphäfre bietet. 


2.5. Lernbedingungen - Einstellungen zum Lesen 
Wenn es um die Bedingungen geht, die spezifisch für die Lesekompetenz 
relevant sind, spielen nicht nur globale Bewertungen der Schülerinnen und 


Schüler in Bezug auf die Institution Schule eine Rolle, sondern auch die moti- 
vationalen Überzeugungen und Einstellungen zur Domäne Lesen. Kognitive 
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und motivationale Faktoren stellen wichtige Voraussetzungen für schulische 
Leistungen dar (Kriegbaum, Becker & Spinath, 2018). In Bezug auf die Lese- 
kompetenz sind die Lesemotivation und lesebezogene Einstellungen bedeut- 
same Faktoren, die Auskunft über die individuellen Lernvoraussetzungen 
der Schülerinnen und Schüler geben. In IGLU wurden diese individuellen 
Merkmale zwischen 2001 und 2016 anhand zweier Items erhoben. Die Kinder 
gaben dabei an, wie gerne sie lesen und inwiefern sie Lesen langweilig finden. 
Die Förderung von Lesemotivation und positiven Einstellungen gegenüber 
dem Lesen kann darüber hinaus selbst als Kriterium für erfolgreichen Unter- 
richt herangezogen werden. 


3. Trends der Bedingungsfaktoren über 15 Jahre im 
internationalen Vergleich 


Die Relevanz der Bedingungsfaktoren des Lesenlernens, die theoretischen 
Ansätzen folgend in gesellschaftlichen, schulischen, familiären und indi- 
viduellen Bereichen zu verorten sind, führt zu der Frage, ob im zeitlichen 
Verlauf Veränderungen in diesen Bereichen festgestellt werden können. Für 
den vorliegenden Beitrag ist es im Trend über 15 Jahre aufgrund des aufge- 
zeigten engen Zusammenhangs dieser Bedingungsfaktoren mit der Lese- 
kompetenz interessant zu sehen, in welchen Bereichen Veränderungen der 
Lernbedingungen deutlich werden. Zudem kann es für die Beschreibung 
der Lernbedingungen in Deutschland aufschlussreich sein, den Trend dieser 
Bedingungsfaktoren in anderen Bildungssystemen vergleichend heranzuzie- 
hen. Die Datengrundlage von IGLU bietet diese Möglichkeit der Analyse von 
Trends im internationalen Vergleich mit ihren bisher vorliegenden Zyklen. 


Datengrundlage 


Als Datengrundlange für die Trendanalysen wurden die Daten aus IGLU 2001 
bis 2016 verwendet. Die vorliegende Arbeit befasst sich mit Angaben aus den 
Teilnehmerstaaten Deutschland, Frankreich, den Niederlanden, Schweden 
und den USA. 

Frankreich, die Niederlande und Schweden wurden als Vergleichsstaaten 
herangezogen, weil es sich um europäische Staaten handelt, die im Hinblick 
auf Industrialisierungsgrad und Bevölkerungsstruktur viele Ähnlichkeiten 
zu Deutschland aufweisen. Die mittlere Leseleistung in IGLU 2016 lagin den 
Niederlanden und Schweden signifikant über dem Mittelwert für Deutsch- 
land. Vergleichend wird Frankreich mit einer signifikant geringeren Leseleis- 
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tung herangezogen. Die USA wurden als zusätzliche Referenz genutzt, da 
der Kontrast zu den europäischen Bildungssystemen aufschlussreich sein 
könnte. Die durchschnittliche Lesekompetenz der Viertklässlerinnen und 
Viertklässler in den USA war in IGLU 2016 signifikant höher im Vergleich 
zu Deutschland. Die fünf Staaten haben an allen Zyklen teilgenommen. Die 
Analysen beziehen sich auf Fragen, die zumeist in allen Zyklen abgefragt 
wurden. Alle Fragen wurden bezüglich ihrer exakten Formulierung geprüft 
und sind in hinreichender Weise zwischen den Erhebungszyklen vergleich- 
bar. 

Abbildung 1 stellt zunächst die Anzahl der Schülerinnen und Schüler 
in der vierten Klasse für die ausgewählten Teilnehmerstaaten dar und zeigt 
mit Blick auf Deutschland ein sinkendes Niveau im zeitlichen Verlauf, wäh- 
rend für die Niederlande und Schweden ein gleichbleibendes Niveau und 
für Frankreich leicht zunehmende Schüleranzahlen im Verlauf von 2001 bis 
2016 deutlich werden. 


Abbildung 1: Schülerzahlen in der vierten Klasse im Trend von 2001 bis 2016 
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Anmerkungen. Berechnungen der IGLU-Studie basierend auf administrativen Daten (Martin et al., 
2017). Der Trend für die USA ist nicht abgebildet, weil die Schülerpopulation um ein vielfaches größer 
ist. Dort zeigt sich ein steigender Trend. 


Das Stichprobenverfahren in allen IGLU-Zyklen folgte einem zweistufigen 


geschichteten Clusterdesign (d.h. zunächst Schulen und dann Klassen inner- 
halb der Schulen; Martin et al., 2017). Die Schulen, die an der Studie teilnah- 
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men, wurden aus einer vollständigen Liste der Grundschulen eines Landes 
ausgewählt. Dies geschah unter Berücksichtigung von landesspezifischen 
Strata (z.B. Länder der Bundesrepublik Deutschland). In den Schulen wurde 
eine Klasse ausgewählt und alle Schülerinnen und Schüler dieser Klasse nah- 
men an der Erhebung teil. Die Stichproben für die Zyklen und ausgewählten 
Staaten sind in Tabelle 1 dargestellt. Bei Verwendung der Stichprobengewichte 
können Ergebnisse basierend auf diesen Stichproben als repräsentativ für die 
Viertklässlerinnen und Viertklässler der Staaten interpretiert werden. Für die 
Berechnung aller Werte wurden die für IGLU üblichen Analyseverfahren zur 
Berechnung von Standardfehlern, Gewichtungsfaktoren sowie Sampling- und 
Imputationsvarianz berücksichtigt (Martin et al., 2017). 


Tabelle 1: Stichprobenbeschreibung 


Staat Zyklus N Mis (%) Alter Weiblich (%) 
2001 7633 4.40 10.54 49.30 
2006 7899 19.10 10.46 49.15 
Deutschland 
2011 4000 10.10 10.37 50.36 
2016 3959 12.12 10.34 49.89 
2001 3538 3.00 10.12 47.67 
2006 4404 8.81 10.01 48.27 
Frankreich 
2011 4438 0.70 9.96 49.29 
2016 4767 1.45 9.80 50.47 
2001 4112 1.53 0.28 50.06 
2006 4156 1.78 0.24 50.37 
Niederlande 
2011 3995 0.80 10.16 50.93 
2016 4206 1.26 0.04 50.53 
2001 6044 2.38 10.79 49.24 
2006 4394 2.89 10.85 48.39 
Schweden 
2011 4622 2.42 0.74 48.26 
2016 4525 2.45 0.73 49.97 
2001 3763 1.25 0.19 50.79 
USA 2006 5190 7.17 0.08 49.78 
2011 12726 1.89 0.22 50.43 
2016 4425 2.69 0.11 50.09 


Anmerkungen. N = 102796. Mis = Anteil fehlender Angaben im Schülerfragebogen. 
Alter = Alter zum Erhebungszeitpunkt. 


Fehlende Angaben 


In dieser Arbeit wurden Angaben aus den Schülerbefragungen in den Blick 
genommen. Der Anteil fehlender Angaben variierte zwischen Staaten und 
Zyklen. Diese Unterschiede zwischen Staaten und Zyklen lassen sich größ- 
tenteils auf unterschiedliche Verpflichtungsgrade zur Teilnahme an der Hin- 
tergrundbefragung zurückführen. Beispielsweise war die Beantwortung der 
Fragen in Deutschland 2001 verpflichtend für Schülerinnen und Schüler und 
erforderte kein Einverständnis der Eltern. In den darauffolgenden Zyklen war 
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für die Teilnahme an der Hintergrundbefragung eine gültige Einverständni- 
serklärung der Eltern nötig. 

Um den Einfluss von fehlenden Angaben auf die Ergebnisse zu reduzie- 
ren, wurde eine mehrfache Imputation vorgenommen. Diese erfolgte unter 
Einbezug aller im Kapitel verwendeter Daten zuzüglich des Zyklus (Faktor), 
des Staates (Faktor) und der Lesekompetenzdaten, die für alle Schülerinnen 
und Schüler vorhanden waren. Für die Imputation wurde eine Mehrebe- 
nen-Imputation mit prädiktivem Mittelwert-Matching auf Stufe 1 für kon- 
tinuierliche Variablen und eine logistische Regression für originär binäre 
Variablen (z.B. Migrationshintergrund) innerhalb des R-Paketes miceadds 
(Robitzsch, Grund & Henke, 2022) mit 20 Iterationen und fünf imputierten 
Datensätzen verwendet. Für die Imputation wurden alle Variablen in ihrer 
ursprünglichen Metrik verwendet und erst nach der Imputation umgeformt 
(z.B. dichotomisiert). 


Analyse 


Die berichteten Mittelwerte und prozentualen Anteile, sowie deren Standard- 
fehler wurden mit der für IGLU üblichen Jackknife-Replications-Methode, 
Stichprobengewichten und gepoolten Ergebnissen aus den mehrfach impu- 
tierten Daten bestimmt. Die geschätzten Standardfehler berücksichtigen die 
geklumpte Stichproben- und Imputationsvarianz sowie Gewichtung. Zur 
inferenzstatistischen Absicherung wird zu jedem Schätzwert ein Konfidenzin- 
tervall angegeben, dass zwei Standardfehler über und unter dem Schätzwert 
entspricht. Dies approximiert ein 95 %-iges Konfidenzintervall. Schätzwerte 
in einem paarweisen Vergleich mit einander nicht überlappenden Konfiden- 
zintervallen können als statistisch signifikant unterschiedlich mit a < 1% 
gewertet werden. Alle Analyse wurden mit dem Paket BIFIE.survey (BIFIE, 
Robitzsch & Oberwimmer, 2022) durchgeführt. 


3.1. Trends der Zusammensetzung der Schülerschaft 


Vor dem Hintergrund des empirisch vielfach aufgezeigten Zusammenhangs 
des soziokulturellen Kapitals sowie des Migrationshintergrunds mit Leis- 
tungsergebnissen über Schulsysteme hinweg, wurden zunächst Trends der 
Zusammensetzung der Schülerschaft über die Erhebungszeitpunkte hinweg 
betrachtet. 

Die Anzahl der Bücher im Haushalt als Indikator des soziokulturellen 
Kapitals wurde dichotomisiert mit den Gruppen „maximal 100 Bücher“ und 
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„mehr als 100 Bücher“ im Haushalt ausgewertet. Abbildung 2 zeigt, dass 
der Anteil der Schülerinnen und Schüler, die angaben, mehr als 100 Bücher 
im Haushalt zu besitzen, in Deutschland und den Niederlanden über die 
Erhebungszyklen hinweg stabil blieb. In Frankreich war nach einem Anstieg 
zwischen 2001 und 2006 eine Abnahme zu 2011 zu erkennen. Eine nahezu 
parallel abnehmende Tendenz ist außerdem für Schweden und die USA zu 
erkennen. In Schweden ist der Anteil der Schülerinnen und Schüler mit 
mehr als 100 Büchern im Haushalt von einem im Vergleich mit den ande- 
ren Teilnehmerstaaten hohen Niveau etwa auf das Niveau der anderen Ver- 
gleichsstaaten gesunken. 


Abbildung 2: Anteile der Schülerinnen und Schüler, die angaben, mehr als 100 Bücher 
im Haushalt zu haben (Angaben der Schülerinnen und Schüler, Anteile in Prozent) 


60 
55 Q 
50 
45 T 
S m } =@=— Deutschland 
5 40 T Frankreich 
g I 
° ‘ 
x 4 Niederlande 
œ 35 L 
a a >= Schweden 
30 + I B- USA 
t 5 
25 = Q 
20 
2001 2006 2011 2016 


IGLU Zyklen 


Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Wie viele Bücher gibt es bei dir zu Hause ungefähr?“ Die Punkte in der 
Abbildung geben an, wie viel Prozent der Kinder darauf antworteten „Genug, um zwei Regale zu füllen 
(101-200 Bücher)“ oder „Genug, um drei oder mehr Regale zu füllen (über 200 Bücher)“. 


Als zweiter Indikator der Schülerzusammensetzung wurden Trends hinsicht- 
lich des Migrationshintergrunds anhand der zu Hause gesprochenen Sprache 
in den Blick genommen. Für alle betrachteten Staaten sind in Abbildung 3 
Veränderungen im Trend erkenntlich. Diese Veränderungen sind jedoch nicht 
linear. Besonders hervorzuheben sind die in Deutschland, Frankreich, den 
Niederlanden und Schweden von 2006 zu 2011 gesunkenen Anteile der Schü- 
lerinnen und Schüler, die zu Hause immer oder fast immer die Unterrichts- 
sprache sprechen. Für diese Staaten ist zugleich ein Anstieg dieses Anteils 
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zwischen 2011 und 2016 erkennbar. Für die USA zeigte sich eine Verände- 
rungin einem Anstieg des Anteils der zu Hause immer oder fast immer die 
Unterrichtssprache sprechenden Schülerinnen und Schüler zwischen 2001 
und 2006. Seither zeigt sich über die Erhebungszyklen hinweg ein sinkender 
Verlauf. 


Abbildung 3: Anteile der Schülerinnen und Schüler, die angaben, zu Hause immer 
oder fast immer die Unterrichtssprache zu sprechen (Angaben der Schülerinnen und 
Schüler, Angaben in Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Da sich das Antwortformat zwischen den Zyklen leicht geändert hat, geben in der Abbildung 
Werte für 2016 an, wie viel Prozent der Kinder auf die Frage „Wie oft sprichst du zu Hause [Unterrichts- 
sprache]?“ mit „Ich spreche zu Hause immer [Unterrichtssprache]“ oder „Ich spreche zu Hause fast 
immer [Unterrichtssprache]“ antworteten. Für 2001 und 2011 geben die Werte an, wieviel Prozent der 
Kinder auf diese Frage mit „Ich spreche zu Hause immer oder fast immer [Unterrichtssprache]“ antwor- 
teten. Angaben für 2006 sind extrapoliert, da keine vergleichbaren Angaben erhoben wurden. 


Mit Blick auf Deutschland lässt sich hinsichtlich der betrachteten Indikatoren 
der Schülerzusammensetzung herausstellen, dass der soziokulturelle Hinter- 
grund entgegen des sinkenden Trends in den Vergleichsstaaten in Deutsch- 
land stabil blieb und der sprachliche Hintergrund der Schülerfamilien in den 
europäischen Staaten ähnliche Entwicklungen nahm. 
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3.2. Trends der Bedingungsfaktoren aus Ressourcen häuslicher 
Lernumwelt 


Als ein Indikator für die Bedingungsfaktoren im Bereich der häuslichen 
Lernumwelt von Viertklässlerinnen und Viertklässlern wurde international 
vergleichend erfasst, inwiefern den Schülerinnen und Schülern zu Hause ein 
eigener Schreibtisch bzw. Tisch zur Verfügung steht. In Abbildung 4 sind 
die Anteile der Schülerinnen und Schüler dargestellt, die angaben, zu Hause 
einen Schreibtisch oder anderen Tisch nur für sich zu haben. Der Blick auf die 
Ergebnisse im Trend zeigt für die betrachteten Staaten geringfügige Schwan- 
kungen über die Zeit hinweg. Diese Ressource der häuslichen Lernumge- 
bung blieb innerhalb der Bildungssysteme folglich relativ stabil. Der Vergleich 
zwischen den Staaten zeigt jedoch Niveauunterschiede dahingehend, dass 
in Deutschland, Schweden und den Niederlanden zu allen Erhebungszeit- 
punkten höhere Anteile von Schülerinnen und Schülern angaben, zu Hause 
über einen eigenen Schreibtisch oder Tisch zu verfügen, als in Frankreich 
und den USA. 


Abbildung 4: Anteile der Schülerinnen und Schüler, die angaben, zu Hause einen 
eigenen Schreibtisch oder anderen Tisch zu haben (Angaben der Schülerinnen und 
Schüler, Anteile in Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Gibt es diese Dinge bei dir zu Hause?“ Die Punkte geben an, wie viel Pro- 
zent der Kinder auf das Item „Einen Schreibtisch oder anderen Tisch nur für dich“ mit „ja“ antworteten. 


Die Internetverfügbarkeit zu Hause als Ressource wurde bei den Viertkläss- 


lerinnen und Viertklässlern ab IGLU 2011 erfasst und zeigt insgesamt stei- 
gende Tendenzen in allen betrachteten IGLU-Teilnehmerstaaten (Abbildung 
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5). Insbesondere in den Niederlanden und in Schweden gaben zyklusüber- 
greifend hohe Anteile der Schülerinnen und Schüler an, zu Hause Zugriff 
auf das Internet zu haben. In Deutschland, Frankreich und den USA sind 
die Anteile über die Zeit hinweg ebenfalls auf ein hohes Niveau von über 90 
Prozent angestiegen, konnten jedoch noch nicht zu den Niederlanden und 
Schweden aufschließen. 


Abbildung 5: Anteile der Schülerinnen und Schüler, die angaben, zu Hause über 
einen Internet-Zugang zu verfügen (Angaben der Schülerinnen und Schüler, Anteile in 
Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Gibt es diese Dinge bei dir zu Hause?“ Die Punkte geben an, wie viel 
Prozent der Kinder auf das Item „Einen Internet-Zugang“ mit „ja“ antworteten. 


3.3. Trends des Bedingungsfaktors Computernutzung in der Schule 


Hinsichtlich der Computernutzung wurde im Trend die Angabe der Schüle- 
rinnen und Schüler erhoben, wie häufig sie in der Schule Computer nutzen. 
Dazu zeigt Abbildung 6, dass die Nutzungshäufigkeit in Deutschland nahezu 
durchgängig unter den Werten der anderen betrachteten IGLU-Teilnehmer- 
staaten lag. Stieg der Anteil der Schülerinnen und Schüler, die angaben, Com- 
puter mindestens einmal pro Woche im Unterricht zu nutzen in Deutschland 
zwischen den Jahren 2001 und 2011 noch an, fiel der Anteil 2016 unter den 
Wert im ersten Erhebungszyklus zurück. Einen ähnlichen Rückgang ver- 
zeichneten auch Frankreich, die Niederlande und die USA. Für Schweden 
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zeigte sich hingegen von 2011 zu 2016 ein Anstieg und damit ein höherer 
Anteil von Schülerinnen und Schülern, die angaben, mindestens einmal pro 
Woche Computer in der Schule zu nutzen. Insgesamt wird im Trend für 
die Niederlande, Schweden und die USA eine stärkere Implementation von 
Computern im Unterricht der vierten Klassen im Vergleich zu den weiteren 
betrachteten Teilnehmerstaaten deutlich. 


Abbildung 6: Anteile der Schülerinnen und Schüler, die angaben, in der Schule 
mindestens einmal pro Woche mit Computern zu arbeiten (Angaben der Schülerinnen 
und Schüler, Anteile in Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Wie oft benutzt du einen Computer oder ein Tablet an jedem der fol- 
genden Orte für Schularbeiten?“. Die Punkte geben an, wie viel Prozent der Kinder auf das Item „In der 
Schule“ mit „Jeden Tag oder fast jeden Tag“ oder „Ein bis zwei Mal pro Woche“ antworteten. 


3.4. Trends der Bedingungsfaktoren der Einstellungen zur Schule 


Mit den Einstellungen zur Schule und dem Wohlbefinden der Schülerinnen 
und Schüler wurde ein weiterer relevanter Bereich von Faktoren im Trend 
betrachtet, der eng verbunden mit Leistungen von Schülerinnen und Schülern 
ist. Abbildung 7 zeigt, wie hoch die Anteile der Schülerinnen und Schüler 
waren, die angaben, sich in der Schule sicher zu fühlen. Auffällig ist dabei, 
dass die Schülerinnen und Schüler in Schweden im Vergleich zu den weite- 
ren betrachteten Teilnehmerstaaten zu allen Zyklen zu höheren Anteilen ein 
positives Sicherheitsempfinden in der Schule angaben. Für die Niederlande 
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lässt sich zudem im zeitlichen Verlauf ein tendenziell steigendes Niveau fest- 
stellen. Mit Blick auf Deutschland zeigte sich in den ersten beiden Zyklen 
ein Anteil von etwas mehr als 80 Prozent der Schülerinnen und Schüler, die 
angaben, sich in der Schule sicher zu fühlen. Dieser Anteil schwankte in der 
Folge leicht und lag 2011 etwas höher, fiel 2016 jedoch wieder in etwa auf den 
Ausgangswert zurück, womit für Deutschland im Vergleich mit den weiteren 
Staaten geringere Anteile zu verzeichnen sind. 


Abbildung 7: Anteile der Schülerinnen und Schüler, die angaben, sich in ihrer Schule 
sicher zu fühlen (Angaben der Schülerinnen und Schüler, Anteile in Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Wie denkst du über deine Schule?“. Die Punkte geben an, wie viel Pro- 
zent der Kinder auf das Item „Ich fühle mich sicher, wenn ich in der Schule bin“ mit „stimme stark zu“ 
oder „stimme einigermaßen zu“ antworteten. 


Zusätzlich zum schulischen Sicherheitsempfinden konnte im Trend betrachtet 
werden, wie hoch der Anteil der Viertklässlerinnen und Viertklässler war, die 
angaben, gerne zur Schule zu gehen (Abbildung 8). Ähnlich wie bei dem vor- 
herigen Bedingungsfaktor zeigte sich für Schweden im Trend ein im Vergleich 
der Staaten eher hoher Anteil an Schülerinnen und Schülern, die angaben, 
gerne zur Schule zu gehen, mit tendenziell steigendem Anteil. Frankreich und 
die Niederlande lagen auf einem vergleichbaren Niveau. Für Deutschland 
hingegen wurde ein im Vergleich eher geringer Wert mit sinkender Tendenz 
seit dem Zyklus 2006 erkennbar. 
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Abbildung 8: Anteile der Schülerinnen und Schüler, die angaben, gerne zur Schule zu 
gehen (Angaben der Schülerinnen und Schüler, Anteile in Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Wie denkst du über deine Schule?“ Die Punkte geben an, wie viel 
Prozent der Kinder auf das Item „Ich gehe gerne in die Schule“ mit „stimme stark zu“ oder „stimme 
einigermaßen zu“ antworteten. 


Für das Wohlbefinden der Schülerinnen und Schüler in Deutschland scheint 
sich damit im Vergleich der betrachteten Staaten ein geringeres Sicherheits- 
gefühl in der Schule und ein geringerer Anteil an Schulfreude abzuzeichnen. 


3.5. Trends der Bedingungsfaktoren der Einstellungen zum Lesen 


In Abbildung 9 sind die Angaben zu den Einstellungen der Viertklässlerinnen 
und Viertklässler zum Lesen abgetragen. Die Abbildung stellt dar, inwiefern 
die Viertklässlerinnen und Viertklässler das Lesen mögen. Der Vergleich der 
Teilnehmerstaaten zeigt, dass in Frankreich die meisten Schülerinnen und 
Schüler angaben, das Lesen zu mögen. Diese Tendenz war auch im zeitlichen 
Verlauf stabil auf hohem Niveau. Für die Niederlande wird hingegen ebenfalls 
ein stabiler Trend deutlich, jedoch auf geringerem Niveau und, über die Zeit 
gesehen, mit den geringsten Zustimmungsanteilen im Vergleich der fünf 
Staaten. Besonders auffällig sind die negativen Trends bezüglich des Anteils 
an Schülerinnen und Schülern, die das Lesen mögen, für Deutschland und 
Schweden. Beide Staaten lagen 2016 etwa im Bereich des Wertes für die Nie- 
derlande. 
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Abbildung 9: Anteile der Schülerinnen und Schüler, die angaben, Lesen zu mögen 
(Angaben der Schülerinnen und Schüler, Anteile in Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Wie denkst du über das Lesen?“ Die Punkte geben an, wie viel Prozent 
der Kinder auf das Item „Ich lese gerne“ mit „stimme stark zu“ oder „stimme einigermaßen zu“ antwor- 
teten. 


Zudem wurde die Angabe der Schülerinnen und Schüler zu der Aussage 
„Ich finde Lesen langweilig“ erfasst. Übereinstimmend mit den Ergebnissen 
dazu, ob die Kinder das Lesen mögen, verdeutlicht Abbildung 10, dass ver- 
gleichsweise hohe Anteile der Schülerinnen und Schüler in den Niederlanden 
Lesen langweilig fanden, während die entsprechenden Anteile in Frankreich 
geringer ausfielen. Während Deutschland zwischen 2001 und 2006 einen sin- 
kenden Anteil bzgl. der Zustimmung zu dieser Aussage verzeichnete, stiegen 
die Werte seitdem tendenziell an. 
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Abbildung 10: Anteile der Schülerinnen und Schüler, die der Angabe zustimmten, dass 
Lesen langweilig ist (Angaben der Schülerinnen und Schüler, Anteile in Prozent) 
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Anmerkungen. Nicht überlappende Konfidenzintervalle (SE*2) zeigen statistisch signifikante Unter- 
schiede an. Die Frage lautete: „Wie denkst du über das Lesen?“. Die Punkte geben an, wie viel Prozent 
der Kinder auf das Item „Ich finde Lesen langweilig“ mit „stimme stark zu“ oder „stimme einigermaßen 
zu“ antworteten. 


4. Zusammenfassung und Diskussion 


Internationale groß angelegte Schulleistungsstudien sind ein zentraler Bau- 
stein des Bildungsmonitorings und Grundlage für die Qualitätssicherung 
im Schulsystem (Bos, Gebauer & Postlethwaite, 2018; Grünkorn, Klieme & 
Stanat, 2019; European Commission, 2018). Da die Bildungssysteme weltweit 
einem raschen Wandel unterworfen sind, müssen sich auch die internatio- 
nalen Large-Scale-Assessments weiterentwickeln und diese Bedingungen 
berücksichtigen (Harju-Luukkainen, McElvany & Stang, 2020). Damit werden 
neue oder veränderte Konstrukte eingeführt und Konstrukte mit abnehmen- 
der Bedeutung entfallen aus den Hintergrundfragebögen. Für die Betrachtung 
der Ergebnisse im Trend über mehrere Erhebungszyklen hinweg reduziert 
sich somit das Set an Indikatoren, die für einen internationalen Vergleich von 
Trends herangezogen werden können. Für den vorliegenden Beitrag konnten 
für relevante Bereiche zur Beschreibung der Bedingungen des Lesenlernens 
von Grundschulkindern Indikatoren ausgewählt werden, die eine Betrachtung 
von Trends ermöglichen und neben den Veränderungen in Deutschland im 
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Verlauf von 15 Jahren auch einen Vergleich zu den Veränderungen der Bedin- 
gungen des Lesenlernens in anderen Bildungssystemen im selben Zeitraum 
ermöglichen. Damit steht nicht wie zumeist fokussiert die durchschnittliche 
Lesekompetenz von Schülerinnen und Schülern im Zentrum des Beitrags, 
sondern die Frage danach wie sich bedeutsame Bedingungsfaktoren der Lese- 
kompetenz am Ende der Grundschulzeit im zeitlichen Verlauf darstellen. 

Die Betrachtung der Schülerkomposition zeigt für Deutschland eine 
Besonderheit im Vergleich zu den weiteren herangezogenen Vergleichsstaa- 
ten im Hinblick auf die Anzahl der Bücher im Haushalt, die klassischerweise 
in der empirischen Bildungsforschung primär Hinweise auf das in einer 
Familie zur Verfügung stehende soziokulturelle Kapital liefert. Während 
sich für die Vergleichsstaaten eine sinkende Anzahl an Büchern abzeich- 
nete, blieb diese in Deutschland über die IGLU-Zyklen 2001 bis 2016 sta- 
bil. Vertiefende Analysen zeigten, dass diese Variable in Deutschland zu 
den jeweiligen Messzeitpunkten gute Messeigenschaften aufwies (Schwip- 
pert, 2019), dies wäre auch für die betrachteten Vergleichsstaaten zu prü- 
fen. Gerade vor dem Hintergrund der gestiegenen Verfügbarkeit digitaler 
Medien, die Bücher im Haushalt zukünftig weiter ersetzen könnten, sowie 
des viel diskutierten Digitalisierungsschubs durch die COVID-19-Pandemie 
ist für internationale Schulleistungsstudien anzuraten, die sich wandelnde 
Bedeutung gedruckter Bücher im Haushalt als Indikator des soziokulturel- 
len Kapitals gemeinsam mit anderen Indikatoren zu betrachten und insbe- 
sondere für den internationalen Vergleich differenzielle Entwicklungsver- 
läufe zu berücksichtigen. 

Für die häuslichen Lernressourcen zeigte sich eine ähnliche Entwick- 
lung in allen fünf betrachteten Staaten, wobei für die Internetverfügbarkeit 
jedoch eine bessere Ausstattung in den Niederlanden und Schweden deut- 
lich wurde. Vor dem Hintergrund der Relevanz der häuslichen Ausstattung, 
die auch insbesondere während der pandemiebedingten Abweichungen vom 
Präsenzunterricht verstärkt für den Primarbereich und die Lesekompetenz 
deutlich wurde (Huber, 2021), ist die Sicherstellung der Verfügbarkeit dieser 
Lernressourcen für Schülerinnen und Schüler ein wichtiges Anliegen, um 
Lernergebnisse zu sichern. Die Verfügbarkeit digital präsentierter Informa- 
tionen und auch die Möglichkeiten des Austausches können Lernprozesse 
fördern. 

Für die Computernutzung in der Schule ließ sich ein paralleler Verlauf in 
den betrachteten Staaten erkennen, der insbesondere mit einem Rückgang 
des Anteils im Jahr 2016 einherging. Lediglich Schweden verzeichnete hier- 
bei einen Anstieg in 2016 und damit eine intensivere Integration digitaler 
Medien in den Unterricht. Im Zuge der Entwicklungen und bildungspoliti- 
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schen Anstrengungen der vergangenen Jahre seit 2016 wäre eine Zunahme 
der Nutzung digitaler Medien im Unterricht zu erwarten. Vielmehr als die 
quantitative Angabe der Nutzungshäufigkeit wären im internationalen Ver- 
gleich jedoch die Nutzungsweisen, und hier insbesondere die gezielte För- 
derung der Lesekompetenz mit digitalen Medien zu betrachten. Aufschluss 
darüber zu erhalten, auf welche Weise und zu welchen Zwecken digitale 
Endgeräte im Unterricht eingesetzt werden, würde die Option eröffnen, 
Potenziale für die Leseförderung abzuleiten, die schulsystemübergreifend 
identifiziert werden können. 

Die Einstellungen zur Schule sind in Deutschland im Vergleich zu den 
weiteren betrachteten Staaten ungünstiger ausgeprägt mit im Durchschnitt 
zumeist geringeren Anteilen an Kindern, die angeben, sich in der Schule 
sicher zu fühlen oder gerne zur Schule zu gehen. Das schulische Wohlbe- 
finden der Schülerinnen und Schüler in Deutschland scheint damit eher 
geringer zu sein. Dies ist ein Befund, der insbesondere durch die weltwei- 
ten Auswirkungen der Pandemie auf den schulischen Betrieb von Interesse 
ist, und dessen weitere Entwicklung im Trend zu IGLU 2021 besonderen 
Umständen unterlag. Mit dem IQB-Bildungstrend konnten keine bedeutsa- 
men Veränderungen in der Schulzufriedenheit von Grundschulkindern im 
Vergleich der Jahre 2016 und 2021 beobachtet werde (Stanat et al., 2021). Für 
Deutschland lässt sich damit aufgrund bereits ungünstigerer Ausgangslagen 
im Zyklus 2016 als in den Vergleichsstaaten ableiten, das Wohlbefinden der 
Schülerinnen und Schüler am Ende der Grundschulzeit und damit vor der 
wichtigen Gelenkstelle des Übergangs in die weiterführende Schule in den 
meisten Ländern der Bundesrepublik Deutschland zu beachten. 

Die Einstellungen zum Lesen der Viertklässlerinnen und Viertklässler in 
Deutschland verschlechterten sich tendenziell, insbesondere mit Blick auf 
die IGLU-Zyklen 2006 bis 2016. Hierbei lag Deutschland im Vergleich zu 
den weiteren betrachteten Staaten 2016 etwa auf demselben Niveau. Den- 
noch ist es angesichts aktueller Befunde zu geringeren Lesekompetenzen 
von Kindern (Stanat et al., 2022) ein beunruhigendes Ergebnis. Das Lesein- 
teresse und die Lesemotivation, die eng mit der Lesekompetenz verwoben 
sind, sollten daher gefördert werden. Eine wichtige Aufgabe der Schule wie 
auch der Lesesozialisation im Elternhaus scheint es daher zu sein, die Freude 
der Kinder am Lesen durch gemeinsame Leseaktivitäten und vielfältige, auf 
ihre Lebenswelt und Interessen abgestimmte Angebote aufrecht zu erhalten. 
Vertiefend könnte zudem der sich für Deutschland von den Trends der ande- 
ren Vergleichsstaaten abhebende gleichbleibende Bücherbesitz im zeitlichen 
Verlauf bei gleichzeitig sinkendem Leseinteresse der Schülerinnen und 
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Schüler untersucht werden. Hierbei ist eventuell die stärkere Einbindung 
digitaler Medien in den Vergleichsstaaten ein zu berücksichtigender Faktor. 


4.1. Limitationen 


Zur Untersuchung der relevanten Indikatoren von zentralen Bedingungsfak- 
toren der Lesekompetenz von Viertklässlerinnen und Viertklässlern liegen 
lediglich wenige Einzelitems unverändert über die gesamte Spanne von 15 
Jahren IGLU vor. Wünschenswert wäre eine größere Anzahl von Items oder 
Skalen hinsichtlich der Bedingungsfaktoren vorzufinden, die diese Bereiche 
im Zeitverlauf umfassender beschreibbar machen. 


4.2. Implikationen 


Ein methodisches Anliegen für die Weiterentwicklung im Bereich der Lar- 
ge-Scale-Assessments besteht darin, zentrale Konstrukte über eine längere 
Zeit unverändert beizubehalten, um das Potenzial von Trendanalysen auf- 
recht zu erhalten. Dies ist angesichts des raschen Wandels gesellschaftlicher 
Bedingungen ein anspruchsvolles Feld, das jedoch für die Bedeutsamkeit 
solch groß angelegter Studien sehr zuträglich ist. Nicht nur querschnittli- 
che Aussagen über Kompetenzen von Schülerinnen und Schülern sowie die 
Rahmenbedingungen des Erwerbs dieser sind damit möglich, sondern auch 
das Potenzial, Trends in Bildungssystemen zu verdeutlichen und mit anderen 
Bildungssystemen zu vergleichen. 

Die Ergebnisse zeigten zudem für bildungspolitische Strategien eine 
evidenzbasierte Grundlage für Entscheidungen, die die Bedingungen des 
Lesenlernens von Schülerinnen und Schülern am Ende der Grundschul- 
zeit verbessern können. Im Vergleich zu den anderen Staaten wurde für 
Deutschland insbesondere deutlich, dass sowohl die Internetanbindung 
zu Hause als auch die mindestens wöchentliche Computernutzung in der 
Schule in den anderen Teilnehmerstaaten höher ausfallen und Deutschland 
bezüglich dieser beiden digitalisierungsbezogenen Indikatoren der Bedin- 
gungen des Lesenlernens von Grundschulkindern hinter den zum Vergleich 
herangezogenen Staaten zurücklag. Ähnlich verhält es sich für die Angaben 
zur Einstellung zur Schule, bei denen Deutschland hinter den betrachte- 
ten Vergleichsstaaten zurückblieb. Damit konnte die Betrachtung zentraler 
Lernbedingungen der Lesekompetenz im internationalen Vergleich und im 
Trend über die Zeitspanne von 15 Jahren IGLU Bereiche identifizieren, die 
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für Deutschland Handlungsoptionen zur Optimierung der Lernbedingun- 
gen und damit verbunden der Unterstützung der Lesekompetenzentwick- 
lung aufzeigten. Verstärkte Bemühungen hinsichtlich der Optimierung die- 
ser Lernbedingungen sind zur Aufrechterhaltung und Weiterentwicklung 
der Qualität des Bildungssystems in Deutschland damit zu erwägen, um 
an internationale Vergleichsstaaten aufzuschließen. Insbesondere bleibt zu 
betrachten, wie sich die Trends angesichts der Pandemieauswirkungen auf 
die zentralen Lernbedingungen mit IGLU 2021 fortsetzen. Die Erhebungen 
etwa ein Jahr nach Beginn der pandemiebedingten Auswirkungen auf den 
Unterricht und das Lernen können dabei weitere wertvolle Hinweise auf die 
Entwicklungen in Deutschland und im Vergleich zu anderen Schulsystemen 
liefern. Die ersten Ergebnisse zu IGLU 2021 werden mit der Berichtslegung 
in 2023 (McElvany et al., 2023) erfolgen. Mit den Daten aus IGLU 2021 wird 
erstmalig eine Betrachtung der in diesem Beitrag fokussierten Bedingun- 
gen der Lesekompetenz von Schülerinnen und Schülern in Deutschland am 
Ende der Grundschulzeit über eine Zeitraum von 20 Jahren möglich sein. 
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Quality of ICT Use in German 
Secondary Schools During the 
COVID-19 Pandemic: Predictors on 
the School and Teacher Level 


Sittipan Yotyodying & Ramona Lorenz 


Abstract 


Asa consequence of the global spread of COVID-19, the traditional method 
of on-site teaching and learning has shifted to more hybrid approaches. 
Thus, ensuring the quality of ICT use in teaching and learning in school has 
become even more important. The aim of this article was to examine tea- 
chers’ perceptions regarding predictors of the quality of ICT use in school 
during the pandemic. We focused on two quality features: organization of 
teaching and student learning behavior. Furthermore, we distinguished 
between predictors on the school level (i. e., school’s ICT equipment, inves- 
tment in the school’s digital infrastructure, school type) and teacher-side 
predictors (i.e., ICT self-efficacy, ICT learning opportunities, gender). The 
data stemmed from a representative survey of secondary school teachers in 
Germany (N = 1512). Overall, the SEM analyses revealed that ICT equip- 
ment, school type, and ICT self-efficacy were significantly associated with 
both quality features of ICT use. Investment in digital infrastructure and 
ICT learning opportunities were only significantly associated with orga- 
nization of teaching, while gender was only significantly related to student 
learning behaviors. Findings and implications regarding the quality of ICT 
use in school are discussed. 


Keywords: Quality of ICT use in school; school digital equipment, develop- 
ment by investment programs, teacher digital self-efficacy; teaching orga- 
nization; student learning behaviors; COVID-19 pandemic 
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Zusammenfassung 


Infolge der weltweiten Ausbreitung der COVID-19-Pandemie wandelten 
sich die traditionellen Präsenz-Lernformate zu hybriden Lehr-Lernansät- 
zen. Daher stieg die Relevanz, die Qualität der Nutzung digitaler Medien 
an Schulen sicherzustellen. Das Ziel dieses Artikels war es, die von Lehr- 
kräften wahrgenommenen Prädiktoren zu untersuchen, die zur Qualität 
der Nutzung digitaler Medien in der Pandemiezeit beitragen konnten. Wir 
fokussierten dabei auf zwei Nutzungsmerkmale: die Unterrichtsorganisa- 
tion und das Lernverhalten der Schülerinnen und Schüler. Darüber hinaus 
differenzierten wir zwischen schulseitigen Prädiktoren (ICT-Ausstattung, 
Entwicklung durch Investitionsprogramme, Schulform) und lehrerseitige 
Prädiktoren (ICT-Selbstwirksamkeit, ICT-Lernangebote, Geschlecht). Die 
Datenanalysen basierten auf einer repräsentativen Befragung der Lehr- 
kräfte der Sekundarstufe I in Deutschland (N = 1512). Insgesamt zeigten 
die SEM-Analysen, dass schulische Ausstattung, Schulform und digitale 
Selbstwirksamkeit in einem signifikanten Zusammenhang mit beiden 
Nutzungsmerkmalen standen. Die Entwicklung durch Investitionspro- 
gramme und ICT-Lernangebote standen nur in einem signifikanten positi- 
ven Zusammenhang mit der Unterrichtsorganisation, wobei das Geschlecht 
war nur mit dem Lernverhalten der Schülerinnen und Schüler signifikant 
verknüpft. Ergebnisse und Implikationen dieser Studie werden im Hinblick 
auf Nutzungsqualität digitaler Medien diskutiert. 


Schlagworte: Qualität der Nutzung digitaler Medien an Schulen; ICT-Aus- 
stattung, Entwicklung durch Investitionsprogramme, ICT-Selbstwirksam- 
keit; Unterrichtsorganisation; Lernverhalten der Schülerinnen und Schüler; 
COVID-19-Pandemie 


1. Introduction 


Information and communication technology (ICT)-related skills (informa- 
tion, communication and technical) - along with other skills like collabora- 
tion, critical thinking, creativity, and problem-solving - are considered key 
competences for the twenty-first century (Van Laar et al., 2020). Over the 
past few years, ICT education in Germany has drawn increasing attention 
from academics and policymakers, resulting in national educational policy 
frameworks that tasked schools with fostering students’ ICT competences in 
all subjects (KMK, 2017, 2021). A large nationwide investment program begin- 
ning in 2019, known as the Digitalpakt Schule, made six billion Euro avail- 
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able for German schools to invest in digital infrastructure, with additional 
investments also made by the federal states (BMBF, 2021). However, recent 
representative surveys demonstrate that there is still room for improvement in 
terms of media education in German schools and students’ ICT competences 
(e. g., Eickelmann et al., 2019; forsa, 2019). 

Since early spring 2020, the COVID-19 pandemic has had a major impact 
on educational systems worldwide, with traditional in-person classroom 
teaching shifting to remote learning, the hybrid classroom or a mixture of 
hybrid and on-site classes (Reintjes et al., 2021). Recent studies have also 
revealed negative impacts of COVID-19 on students’ learning and school 
performance (e. g., Bird et al., 2022; Ludewig et al., 2022) as well as their 
mental health (e. g., UNICEF, 2020). For this reason, ensuring the quality of 
teaching and learning processes with digital media in schools has become 
even more important. Aspects of this include ICT management and support 
as well as ICT use to support students’ learning (Lorenz & Bos, 2017). In the 
past few years, research has explored possible predictors of the process of 
teaching and learning with digital media, especially teachers’ ICT use for 
teaching and learning in school, and sought to explain these relationships. 
Teachers’ ICT use has been found to be a crucial predictor of teachers’ efforts 
to foster students’ ICT competences (e. g., Lorenz et al., 2019) as well as of 
students’ ICT competences (e. g., Gerick et al., 2017). However, it remains 
unclear whether these relationships held in the pandemic context. 

Based on empirical research, Lorenz and Bos (2017) proposed a complex 
framework explaining the intercorrelations between various quality dimen- 
sions of ICT use in the teaching and learning process. Empirical findings 
drawing upon this framework (see also Gräsel et al., 2020) have shown that 
ICT equipment at school as well as teachers’ ICT-related attitudes, teachers’ 
participation in ICT trainings, and teachers’ ICT-related self-efficacy were 
positively associated with teachers’ ICT use, which in turn fostered students’ 
ICT competences (e. g., Gerick et al., 2017; Hatlevik & Hatlevik, 2018; Lorenz 
et al., 2019; OECD, 2020). However, it must be noted that past research has 
typically defined teachers’ ICT use in terms of quantity or frequency of use 
(e. g., how often do teachers use ICT in school). However, much less is known 
about the quality of ICT use in school (how and in what way), and most 
importantly, about factors that may predict different quality levels of ICT 
use in school. The COVID-19 pandemic has not only changed the require- 
ments for ICT equipment at school, but has also had an impact on teaching 
and learning processes with digital media (Lorenz & Eickelmann, 2022). To 
the best of our knowledge, few studies have systematically investigated the 
question of how (and in what way) teachers used ICT in teaching and learn- 
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ing during the pandemic. To shed light on this issue, this article will provide 
empirical evidence regarding crucial factors that may contribute to predict- 
ing the quality of ICT use in school during the pandemic. 


2. Theoretical Background 


2.1. Theoretical Framework of Quality Dimensions of Teaching and 
Learning with Digital Media 


Over the past decade, a number of researchers have attempted to explain the 
relationship between school development and school effectiveness. In doing 
so, they have proposed different indicators that can be categorized into three 
levels: input, process, and output (e. g., Creemer & Kyriakides, 2008; Ditton, 
2000; Eickelmann & Schulz-Zander, 2008; Scheerens, 1990). Eickelmann and 
Schulz-Zander (2008) focused on media education in school. In contrast to 
previous studies, Lorenz and Bos (2017) proposed that indicators on the input, 
process, and output levels of school development and school effectiveness are 
intercorrelated. In their model (Figure 1), ICT-related contexts (i.e., signif- 
icance of ICT in society, technological change, ICT experiences outside of 
school, and access to ICT) shape school-related, teaching-related, and indi- 
vidual indicators. At the input level, this model focuses on the importance 
of teachers’ ICT-related competences and teachers’ attitudes towards media 
education in school. Apart from teacher factors, the input level also includes 
school factors, such ICT development plans, curricular requirements and 
educational standards, ICT infrastructure in school, and support for ICT use. 

At the process level, a distinction is made between school-level processes 
and teaching-level processes. The former are concerned with ICT manage- 
ment/support, an ICT vision, staff development as well as the school cul- 
ture of ICT use. The latter, according to Lorenz and Bos (2017), includes 
three important factors for teaching with ICT: learning culture, use of ICT to 
support student learning, and pedagogical support. Likewise, a distinction 
is made between output and outcome indicators at the output level. Most 
importantly, it is suggested that school development takes place at the pro- 
cess level, while school effectiveness is related to all three levels. 
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Figure 1: Theoretical Framework for Quality Dimensions of Teaching and Learning with 
Digital Media by Lorenz & Bos (2017) (English translation published in Lorenz etal., 
2019). 
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Linking this model to the present study, we aimed to replicate the relationships 
among input and process factors in the pandemic context. We operationally 
defined the quality of ICT use to support student learning during the pan- 
demic by focusing on two dimensions: (a) organization of teaching and (b) 
students’ learning behaviors. These quality features were operationally char- 
acterized on the basis of the theoretical model by Lorenz and Bos (2017) as 
well as by recent empirical evidence (e. g., Lorenz & Eickelmann, 2022). The 
first quality feature concerns how teaching with digital media was organized 
during the pandemic. The second quality feature assesses teachers’ perceptions 
of whether students’ learning behaviors during the pandemic were consistent 
with students’ on-site learning behaviors before the pandemic. 


2.2. ICT Equipment at School 
ICT equipment is a fundamental resource that plays a central role in processes 


of teaching and learning with digital media in schools, thereby fostering stu- 
dents’ ICT competences as well as other domains of competence (e. g., Lorenz 
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& Bos, 2017; Lorenz & Endberg, 2017). However, internationally representative 
research in recent years, such as the ICILS 2013 (Bos et al., 2014) and ICILS 
2018 (Eickelmann et al., 2019), reported that ICT equipment (e. g., in terms 
of availability of computers, a Wi-fi connection, and learning management 
systems) in German schools lagged behind that in other countries. In the 
literature, there is strong evidence that ICT equipment matters for ICT use in 
school. As part of ICILS 2013, Gerick et al. (2017) examined the connections 
between school-level predictors and ICT use in four countries: Australia, 
the Czech Republic, Germany, and Norway. They only found a significantly 
negative connection between student-computer ratio (whether students need 
to share acomputer atschool) and the frequency ofteachers’ use of computers 
in the Australian sample. Nevertheless, Germany-wide representative research 
(forsa, 2019; Yotyodying & Lorenz, 2022) has reported that ICT equipment in 
schools still needs to be further improved, especially with regard to Internet 
speed. Analyzing representative teacher data, Lorenz et al. (2019) found that 
teachers who reported greater availability of ICT equipment at school (e. g., 
sufficient number of computers, sufficient connectivity) tended to report a 
greater frequency of ICT use as well. 


2.3. Development of Schools’ Digital Infrastructure through 
Investment Programs 


In the past few years, the German federal government and federal states (Bund 
und Länder) have provided schools with an enormous funding to improve 
digital infrastructure in schools (BMBF, 2021). Following the onset of the 
COVID-19 pandemic, these investment programs were expanded (BMBF, 
2021) to ensure high-quality teaching and learning with digital media during 
the crisis, which involved a shift from on-site classes to hybrid or mixed classes 
(Reintjes et al., 2021). To the best of our knowledge, the impact of these invest- 
ment programs on the quality of teaching and learning with digital media 
has not been systematically investigated, especially with respect to teachers’ 
perceptions of such investment programs to develop digital infrastructure 
in schools. So far, it has only been revealed that teachers perceive more prog- 
ress in the areas of learning platforms/learning management system (81 %) 
and Wi-Fi connectivity (71 %), and less progress in the areas of cloud solu- 
tions (61 %), digital textbooks/schoolbooks (58 %), and internet speed (41 %) 
(Yotyodying & Lorenz, 2022). The present study considered ICT equipment 
in schools as an assumed predictor of the quality of ICT use in teaching and 
learning during the pandemic. It is therefore reasonable to examine teachers’ 
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perceptions of the impact of investment programs on digital infrastructure 
in schools during the pandemic. 


2.4. Teachers’ ICT Self-efficacy 


Apart from sufficient ICT equipment at school, Lorenz and Bos (2017) also 
proposed that ICT-related competences among the teaching staff are an 
important antecedent of successful teaching and learning processes with 
digital media. The TPACK model (technological pedagogical and content 
knowledge: Mishra & Koehler, 2006) has been applied in recent decades to 
assess teachers’ ICT competences or ICT self-efficacy. The TPACK model 
explains the interactions and intersections among three different types of 
knowledge related to implementing technology in the classroom: technolog- 
ical knowledge, pedagogical knowledge, and content knowledge. Previous 
research has provided strong empirical evidence that teachers with greater 
ICT self-efficacy tend to report more ICT use in the classroom (e. g., Gerick 
et al., 2017; Hatlevik & Hatlevik, 2018; Katz, 2018). To date, relatively little 
is known about teachers’ ICT self-efficacy and the quality of their ICT use 
during the pandemic, especially regarding teachers’ ability to structure dig- 
itally-supported teaching and learning. 


2.5. ICT Learning Opportunities 


As mentioned earlier, staff development in ICT, such as teacher training on 
ICT-related content, is considered an important quality dimension in the 
processes of teaching and learning with digital media (Lorenz et al., 2019). 
Before the COVID-19 crisis, however, empirical evidence from the ICILS 2018 
study showed that German teachers’ participation in further professional 
development courses on ICT-related issues was low (Eickelmann et al., 2019). 
Other studies also found a dissatisfactory level of teacher participation in ICT 
training (e. g., forsa, 2020; Gerick et al., 2019; GEW, 2020). However, due to 
the new remote emergency way of digitally-supported teaching and learning 
during the pandemic, teachers have begun to exhibit greater interest in ICT-re- 
lated training (e. g., Initiative D21, 2021). In fact, teachers’ participation in 
professional development courses on ICT use can promote teachers’ ICT use 
in their instruction. For instance, Gerick et al. (2017) examined the connection 
between teachers’ participation in professional development courses on ICT 
use and their actual ICT use in teaching across four countries (Australia, Ger- 


213 


many, Norway, and the Czech Republic). The results confirmed a significant 
positive connection in Australia and Norway: The more ICT-related courses 
teachers participated in, the more ICT use in teaching they reported. 


2.6. Socio-demographic Subgroups and ICT Use in School 


The theoretical model by Lorenz and Bos (2017) does not include socio-de- 
mographic variables at the school and teacher levels (such as school type and 
teacher gender) as key factors for school development and school effectiveness 
in media education. However, earlier studies had revealed socio-demographic 
subgroup differences with regard to digital equipment in schools and use of 
digital media in the classroom. For example, previous studies have shown 
that use of media in the classroom differs between female and male teach- 
ers: Higher proportions of male teachers use digital media in the classroom 
compared to their female colleagues (e. g., Drossel et al., 2019). Sufficient dig- 
ital infrastructure promotes greater ICT use in school (Lorenz & Bos, 2017). 
Turning to differences by school type, in Germany, gymnasium) as highest 
track of secondary schools has been found to be better equipped than other 
types of schools in terms of digital infrastructure (e. g., Eickelmann & Drossel, 
2020; forsa, 2019; Lorenz & Bos, 2017). Lorenz and colleagues also found in 
their nationally representative study that a higher proportion of gymnasium 
teachers used computers in their lessons compared to teachers in other school 
types (e. g., Lorenz et al., 2017). 


2.7. Research Questions 


Before the COVID-19 pandemic, media education in Germany had already 
begun to receive greater attention from academics and policymakers. 
Researchers had sought to identify crucial predictors of different quality 
dimensions of teaching and learning with digital media, which in turn help 
to foster students’ ICT competences. In the present study, we distinguished 
between predictors at the school and teacher levels. Most importantly, ear- 
lier studies had already provided empirical evidence that ICT equipment in 
school, teachers’ ICT-related attitudes and ICT-related competences, as well 
as socio-demographic background various are crucial predictors of ICT use 
in school, thereby promoting students’ ICT competences (e. g., Gerick et al., 
2017; Lorenz et al., 2019). However, we knew very little about predictors of ICT 
use in school during the pandemic, and above all, the quality of ICT use in 
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teaching and learning. The aim ofthe present study was therefore to examine 
predictors ofthe quality ofICT use in teaching and learning in school during 
the pandemic. In doing so, we considered different types of ICT-related factors 
that encourage use of ICT in school to support students’ learning (process: 
teaching level), input-level factors (e. g., ICT equipment at school, teachers’ 
ICT-related competences) and school-level process (e. g., staff development 
in terms of ICT-related learning opportunities for teachers). In addition to 
ICT equipment at school, we also examined investment programs in digital 
infrastructure, which also became crucially important during the pandemic 
(Yotyodying et al., 2022). To the best of our knowledge, the present study was 
the first of its kind to examine such investments in the context of media edu- 
cation in Germany. Most importantly, we aimed to determine which group of 
variables is a better predictor of the quality of ICT use in school. The following 
three research questions were addressed: 


1. Which predictive factors on the school level were associated with the 
quality of ICT use in teaching and learning during the pandemic? 

2. Which predictive factors on the teacher level were associated with 
the quality of ICT use in teaching and learning during the pan- 
demic? 

3. Which group of predictive factors (school level versus teacher level) 
explained more variance in the quality of ICT use in teaching and 
learning during the pandemic? 


We anticipated that our selected predictive factors on the school level (i. e., ICT 
equipment at school, investment programs to develop digital infrastructure, 
school type) as well as predictive factors on the teacher level (i.e., ICT self-ef- 
ficacy, ICT learning opportunities, and teacher gender) would be associated 
with the quality of ICT use in teaching and learning in school during the 
pandemic (i.e., organization of teaching, student learning behaviors). The 
third research question was an exploratory research question. Hence, we did 
not have any specific predictions. As the background variables school type and 
teacher gender had previously been found to be related to the study variables 
(e. g., Drossel et al., 2019; Eickelmann & Drossel, 2020), these two variables 
were also included as predictors in the model. 
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3. Method 
3.1. Participants and Procedure 


The present study was a part of the project “Länderindikator 2021” (Lorenz 
et al., 2022) funded by Deutsche Telekom Stiftung (project duration: May 
2021 to April 2022). The present analyses were based on data from a repre- 
sentative survey of secondary school teachers in the sixteen German federal 
states (with at least 50 teachers from each federal state). To adjust for the 
regional distribution of the current survey, a weighting variable was included 
in the data analyses. Overall, 1,512 secondary school teachers from all school 
types (excluding special needs schools) participated in the current research 
(58 % female; 45 % working in Gymnasium schools; average age: 45 years old 
[SD = 11.02]). The teacher survey took place in summer 2021 using fully-struc- 
tured computer-assisted personal interviews (CAPI). 


3.2. Measures 


Perceived Sufficient Availability of ICT Equipment at School during the 
Pandemic 


To assess teachers’ perceptions regarding the availability of sufficient ICT 
equipment at school during the pandemic, we used a four-item scale developed 
by Lorenz et al. (2022) (e. g., “The teachers at my school had sufficient laptops 
available for distance and alternating teaching”). Teachers were asked to rate 
their agreement (on a 5-point Likert scale: 1 = strongly disagree, 5 = strongly 
agree) on the extent to which the ICT equipment at their school was sufficient 
in the past eight weeks during the pandemic. The internal consistency of this 
scale was satisfactory (Cronbach’s alpha = .70). Scale items are available in 
the online supplement. 


Development of School Digital Infrastructure via Investment Programs 


We used a yes/no scale developed by Lorenz et al. (2022) to assess whether 
the school’s digital infrastructure had been improved as part of an invest- 
ment program. Teachers were asked whether (or not) the school has improved 
eight areas of digital infrastructure over the past two years. The eight areas 
included a) fiberoptic/broadband expansion, b) Wi-Fi, c) learning platforms 
and learning management systems, d) web conferencing tools, e) cloud solu- 
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tions, f) licensing of commercial online educational media, g) digital text- 
books and schoolbooks, and h) stronger anchoring of media education in 
the school curriculum. A summative index of “yes” responses per individual 
(maximum: 8) was used in the analyses. 


Teacher ICT Self-efficacy 


Teachers’ ICT-related self-efficacy was assessed with five items (e. g., “I can 
design lessons in a way that appropriately combines the subject content, the 
digital media used and the teaching methods used”) based on the TPACK 
model (e. g., Endberg & Lorenz, 2016; Mishra & Koehler, 2006), with responses 
ona five-point rating scale (1 = strongly disagree, 5 = strongly agree). Overall, 
this scale yielded good internal consistency (Cronbach’s alpha = .86). Scale 
items are available in the online supplement. 


ICT Learning Opportunities 


We assessed teachers’ perceived ICT learning opportunities with four items 
(e. g., “In professional development courses, I learned how to use digital media 
as a means of teaching and learning in the classroom”). These items were 
developed by Lorenz et al. (2017). Responses were made on a five-point rat- 
ing scale (1 = strongly disagree, 5 = strongly agree). This scale yielded good 
internal consistency (Cronbach’s alpha = .76). Scale items are available in the 
online supplement. 


Quality of ICT Use in Teaching and Learning during the Pandemic 


In this article, we assessed two quality features of ICT use in teaching and 
learning during the pandemic: teaching organisation and student learn- 
ing behaviors. The former was assessed with five items (e. g., “In digitally 
supported lessons, I was able to build on important preliminary work at 
my school”). The internal consistency of this scale was good (Cronbach’s 
alpha = .75). Responses for the two scales were given on a four-point rating 
scale, ranging from 1 (strongly disagree) to 4 (strongly agree). Teachers’ per- 
ceptions of student learning behaviors during the pandemic were assessed 
with three items (e. g., “The students reliably completed their tasks in distance 
learning”). The Cronbach’s alpha of this scale was satisfactory (Cronbach’s 
alpha = .66). However, item-total correlations did not suggest deleting any 
items in order to improve the internal consistency. These three items were 
newly developed for this study. 
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Both scales to assess the quality ofthe teaching and learning process with 
digital media during the pandemic were developed by Lorenz et al. (2022). 
To examine whether the two scales captured separate constructs, we per- 
formed an exploratory factor analysis (EFA). It was found that eight items 
loaded onto two factors that accounted for 55.03 % ofthe variance. EFA load- 
ings on the two factors ranged between .49 and .82. Scale items are available 
in the online supplement. 


3.3. Data Analyses 


In the present study, the results ofthe data analyses will be presented in two 
parts. To adjust for the regional distribution of the current survey, a weight- 
ing variable was included in all data analyses. First of all, we performed an 
exploratory factor analysis (EFA) using SPSS as well as a confirmatory factor 
analysis (CFA) using Mplus 8.8 (Muthén, & Muthén, 1998-2017) to test the 
construct validity of the scales used in this article. Additionally, we analyzed 
descriptive statistics for the scales and intercorrelations between latent factors. 
In the second part, we performed an SEM analysis using Mplus 8.8 (Muthen, 
& Muthén, 1998-2017) to examine our hypotheses. Figure 2 displays an SEM 
model with significant standardized parameter estimates for the assumed 
associations among study variables. In this model, two ICT-related predictor 
constructs and two outcome variables served as latent variables, while teacher 
gender and school type served as manifest variables. All standardized parame- 
ter estimates are also shown in Table 2. Teacher gender was operationalized as 
a female teacher or not, while school type was coded in terms of Gymnasium 
teacher (versus other secondary school types). For each latent construct, the 
corresponding scale items served as manifest variables. 


4. Results 
4.1. Testing Construct Validity 


It was first necessary to ensure the construct validity of the scales used in 
the present study. To do so, we first performed an EFA for all items making 
up the five scales, with the exception of the yes/no scale to assess invest- 
ments in the school’s digital infrastructure. The EFA results showed that 
scale items loaded onto five factors that accounted for 59.20% of the vari- 
ance. EFA factor loadings can be seen in the online supplement. In a second 
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step, a confirmatory factor analysis (CFA) of the five-factor measurement 
model was then performed using Mplus 8.8 (Muthen & Muthen, 1998-2017). 
Overall, the CFA model demonstrated an acceptable fit to the data, x? (136, 
N = 1512) = 7343.30, CFI = .93, SRMR = .05, RMSEA = .04 (see, Schreiber et 
al., 2006, for recommendations for the model evaluation). Standardized factor 
loadings ranged from .40 (p < .001) to .80 (p < .001), and all of them proved 
statistically significant. 


Table 1: Sample Items, Internal Consistencies, and CFA Factor Loadings 


Scale and sample item N a CFA 
item Factor 
loading 
ICT equipment at school during the pandemic 
Sample item: The teachers at my school had sufficient laptops 4 0.70 0.40-0.70 
available for distance and alternating teaching. 
ICT self-efficacy 
Sample item: | can design lessons in a way that appropriately com- 5 0.86 0.64-0.80 
bines the subject content, the digital media used and the teaching 
methods used. 
ICT learning opportunities 
Sample item: In professional development courses, | learned how 4 0.76 0.47-0.80 
to use digital media for teaching and learning in the classroom. 
Organization of teaching during the pandemic 
Sample item: In the digitally supported lessons, | was able to build 5 0.75 0.49-0.72 
on important preliminary work at my school. 
Student learning behaviors during the pandemic 
Sample item: The students reliably completed their tasks in dis- 3 0.66 0.56-0.71 
tance learning. 


Note. All standardized CFA factor loadings proved statistically significant (p < .001). 


4.2. Correlational Analyses among Study Variables 


We next performed correlational analyses among study variables. Five study 
variables served as latent constructs, while three variables served as man- 
ifest variables (e. g., ICT investment programs, school type, and gender). 
The significant standardized estimates for the correlations ranged from .20 
(p < .05) to .60 (p <.001). Two quality features of ICT use in school during the 
pandemic were significantly positively correlated with one another. Overall, 
there were significant positive correlations between four out of six predictor 
constructs and two quality features. We found no significant correlations 
between gender and either quality feature. There was a significant positive 
correlation between school type (Gymnasium) and student learning behaviors 
during the pandemic, but school type was not significantly correlated with 
organization of teaching during the pandemic. 

In addition, we computed scale means of the study variables to consider 
absolute levels of teachers’ perceptions. The results showed that teachers 
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reported high levels of the three following factors: ICT self-efficacy, ICT 
learning opportunities, and organization of teaching during the pandemic. 
They reported low to moderate levels of ICT equipment at school, ICT 
investment, and student learning behaviors during the pandemic. 


Table 2: Standardized Estimates for Correlations among Study Variables 


Study variable A 2 3 4 5 6 T 8 
School-side predictors 


1. ICT equipment at school? - 


2. ICT investment programs? .44*** - 

3. Gymnasium? .03 .02 - 

Teacher-side predictors 

4. ICT self-efficacy® Barrr  .2Ok*E .03 - 

5. ICT learning opportunities? -31*** P< 10) 2.5.0 .04 .6O*** - 

6. Female? -.01 -.05 -.02 -.07 -.02 - 

Quality of ICT use 

7. Organization of teaching? -GO***  44+** -.04 .52**e GOFF .02 - 

8. Student learning behaviors® AQEXE ‚29% .20%*%% DEX s25*** .05 :55*** - 
Range (min-max) 1-5 0-8 0-1 1-5 1-5 0-1 1-4 1-4 
M 3.23 4.62 0.45 3.79 3.72 0.61 2.63 2.39 
SD 0.88 2.09 0.50 0.78 0.85 0.49 0.65 0.63 


Note. N = 1512. a = latent construct. b = manifest variable. ***p < .001. **p < .01. *p < .05. 
Model fit: x? (276, N = 1512) = 8045.75, CFI = .93, SRMR = .05, RMSEA = .04. 


4.3. Predicting Quality of the Teaching and Learning Process with 
Digital Media During the Pandemic 


The relations among study variables were examined by performing a series 
of SEM analyses with Mplus 8.8 (Muthén, & Muthén, 1998-2017). Overall, 
the SEM models exhibited acceptable fit to the data. Standardized parameter 
estimates for the associations among study variables are shown in Table 3. 
In the first model, we focused on predictors on the school level, including 
school ICT-related factors and school type (1 = Gymnasium; 0 = other school 
types). The results showed that teachers’ perception regarding the sufficient 
availability of ICT equipment at school during the pandemic and teachers’ per- 
ception of investments in the school’s digital infrastructure were significantly 
positively associated with the two quality features of ICT use in teaching and 
learning in school during the pandemic. There was also a significant positive 
correlation between school type and student learning behaviors during the 
pandemic. The second model examined the relationships between predictors 
on the teacher level (i.e., teacher ICT-related factors, gender) and the quality 
of ICT use in teaching and learning in school. The results demonstrated that 
teachers’ perceived ICT self-efficacy and teachers’ perceived ICT learning 
opportunities were significantly positively associated with organization of 
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teaching during the pandemic. Perceived ICT self-efficacy and gender were 
significantly positively associated with student learning behaviours during 
the pandemic. In the third model, we included all six predictor constructs at 
the school and teacher levels together in the analyses (see Figure 2). The final 
results remained mostly unchanged. However, this time, teachers’ perception 
of investment in the school’s digital infrastructure was no longer significantly 
associated with student learning behaviors during the pandemic. However, 
the association between the Gymnasium school type and organization of 
teaching became significant. In terms of R-squared values (see Table 3), it 
must be noted that predictors on the school level (Model 1) explained more 
variance in the two quality features of ICT use in school during the pandemic 
than predictors on the teacher level (Model 2). Most importantly, the results 
showed that more variance in organization of teaching during the pandemic 
was explained in both models. 


Table 3: Standardized Parameter Estimates for the Associations among Study 
Variables 


Path coefficient Organization of teaching during Student learning behaviors during 
the pandemic the pandemic 

Estimate SE Estimate SE 

Model 1: School level 

CT equipment at school 5OF** .04 .44*** .05 

Digital infrastructure investment 22th .03 .09* .04 

Gymnasium -.05 .03 18*** .03 

Model 2: Teacher level 

CT self-efficacy „Ar r* .05 25% .06 

CT learning opportunities -30F** .05 .09 .05 

Female .05 .03 07* .03 

Model 3: School and teacher levels 

CT equipment at school .39*** .04 .„40*** .06 

Digital infrastructure investment 16*** .03 .08 .04 

Gymnasium -.06* .03 -18*** .03 

CT self-efficacy -26*** .04 LEERE .06 

CT learning opportunities -18*** .05 -.02 .06 

Female .05 .03 .07* .03 

Organization ofteaching during Student learning behaviors during 

R2 the pandemic the pandemic 
Estimate SE Estimate SE 

Model 1: School level A0*** .04 217% .04 

Model 2: Teacher level ‚36t+* .04 Ore .03 

Model 3: School and teacher levels DETR .03 Bro}! Baa .05 

Model fit Model 1 Model 2 Model 3 

x? 3534.90 6063.311 8027.36 

N 1512 1512 1512 

df 90 153 273 

CFI .92 -91 .90 

SRMR .04 .05 .05 

RMSEA .05 .05 .05 


Note. N = 1512. ***p < .001. **p < .01. *p < .05. 
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Figure 2: SEM Model for Predicting the Quality of Teaching and Learning Process 
with Digital Media during the Pandemic. For simplicity’s sake, factor loadings of the 
latent constructs are not shown. Estimates for correlations among study variables are 
presented in Table 2. 

Quality of ICT Use in Teaching and 


Sufficient 


Availability of ICT Learning in School 
E 2 r ; 
School Daring the = During the Pandemic 
Pandemic =» 
Predic 9 a S 
Predictors on the School n Development of School eh up Organization of R= sate" 
Level Digital Infrastructure via ee T the Teaching 


Investment Programs ei During the 
e « 


Pandemic 


“4 


Student Learning 
Behaviors During 
the Pandemic 


Predictors on the Teacher 
Level 


Teacher Gender ze 
(Female) 


Note. *p < .05. **p < .01. ***p <.001. 


5. Discussion 


In the media education literature, there is strong evidence that ICT-related 
factors and other relevant factors contribute to predicting the quantity (how 
often) of teachers’ ICT use in school. However, predictors of the quality (how 
and in what way) of ICT use have been investigated to a far lesser extent. Most 
importantly, relatively little is known whether these predictive factors could 
reliably explain ICT use in school in the context of the COVID-19 pandemic. 
Inspired by the theoretical framework of quality dimensions of teaching and 
learning with digital media (Lorenz & Bos, 2017), the present study examined 
predictive factors that may explain different qualities of ICT use in teach- 
ing and learning in school during the COVID-19 pandemic. In addition, we 
exploratorily examined which group of predictive factors (school level versus 
teacher level) was able to better explain the quality of ICT use. A total of 1,512 
secondary school teachers in Germany participated in the online survey. 
We assessed two aspects of the quality of ICT use in teaching and learning 
in school during the pandemic. The first aspect assessed how teaching with 
digital media was organized in school during the pandemic, while the second 
aspect assessed teachers’ perceptions of student learning behaviors during the 
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pandemic. To the best of our knowledge, the present study was the first of its 
kind to focus on these two quality dimensions of ICT use in school during 
the pandemic. We performed a series of SEM analyses to examine the associ- 
ations between the predictive factors and two quality dimensions of ICT use 
in teaching and learning in school during the pandemic. Overall, the results 
highlighted how predictors at both the teacher and school level promoted the 
quality of ICT use under the pandemic context. 


5.1. Predictors of the Quality of ICT Use 


In line with our predictions, the overall results add to the literature on media 
education in school for two major ways. First, the results confirmed that the 
six predictor constructs (see Figure 2) derived from the theoretical frame- 
work and previous empirical research (e. g., Gerick et al., 2017; Hatlevik & 
Hatlevik, 2018; Lorenz et al., 2019; OECD, 2020) retained their significance 
in the pandemic context. Second, these selected predictive factors were able 
to effectively predict different qualities of ICT use in teaching and learning 
in school during the pandemic. 

On the school level, the results suggest that teachers who reported a 
more sufficient availability of ICT equipment at school during the pan- 
demic and perceived greater investment in their school’s digital infrastruc- 
ture in the past two years tended to report better organization of teaching 
in school during the pandemic as well (e. g., digitally supported lessons 
built on important preliminary work at school, sharing experiences with 
and knowledge about teaching with digital media with their fellow teach- 
ers). This indicates that ICT equipment and digital infrastructure in school 
increase teachers’ ability to organize ICT-related activities with respect to 
their instruction. In the same vein, teachers who reported a more sufficient 
availability of ICT equipment at their school during the pandemic tended to 
more strongly agree that student learning behaviors during the pandemic 
did not differ between face-to-face and distance learning classes. This indi- 
cates that, from teachers’ point of view, sufficient ICT equipment in school 
was essential for ensuring the quality of student learning with digital media 
during the pandemic. Compared to teachers from other secondary school 
types, gymnasium teachers tended to report worse organization of teach- 
ing during the pandemic, but greater consistency in student learning behav- 
iors between face-to-face and digital learning during the pandemic. These 
findings expand upon previous studies finding that gymnasium teachers 
reported greater quantitative use of ICT than teachers in other school types 
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(e. g., Lorenz et al., 2017). In terms of the quality of ICT use, however, it 
seems that gymnasium teachers are not convinced of the quality of student 
learning behaviors with digital media during the pandemic. However, this is 
not surprising given that gymnasium is the highest school track in Germany, 
involving demanding, intensive instruction to prepare students for higher 
education (Müller & Schneider, 2013). However, student learning behaviours 
during the pandemic did not seem to depend on the school’s digital infra- 
structure investments. An explanation for this unexpected finding might be 
that, in teachers’ view, ICT equipment and digital infrastructure in school 
should affect teachers’ use of ICT in their teaching activities rather than stu- 
dents’ learning behaviour at home. 

On the level of individual teachers, the results suggest that teachers who 
reported greater ICT self-efficacy and greater ICT learning opportunities 
tended to report better organization of teaching during the pandemic as well. 
These results expand previous research in the sense that teachers’ compe- 
tences as well as staff development (e. g., teachers’ experiences with ICT-re- 
lated content from teacher education or professional development courses) 
not only increase teachers’ readiness to use ICT in school more often (e. g., 
Gerick et al., 2017; Lorenz et al., 2019), but also facilitated greater use of ICT 
in organizing their teaching during the pandemic. However, organization of 
teaching did not depend on teacher gender. Teachers who reported greater 
ICT self-efficacy tended to report greater consistency in student learning 
behaviors during the pandemic. This indicates that teachers believe their 
ICT-related skills matter for their students’ learning behaviors during the 
pandemic. Likewise, female teachers tended to report greater consistency 
in student learning behaviors during the pandemic. Thus, gender should 
always be taken into consideration when practically implementing the 
results in schools. 

The current research also suggests that predictors on the school level 
explain more variance in both quality features of ICT use in teaching and 
learning in school during the pandemic. This indicates that school-side fac- 
tors such as sufficient ICT equipment and digital infrastructure are funda- 
mental for ICT use in school. Taking into account both school- and teach- 
er-level predictors at the same time, the results show that these predictors 
are more like to explain more variance in organization of teaching during 
the pandemic than in student learning behaviors during the pandemic. An 
explanation for these findings might be that we assessed student learning 
behaviors during the pandemic via teachers’ perceptions. In order to more 
precisely examine the associations between predictors and student learning 
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behaviors, student-report data on learning behaviors during the pandemic 
should be included in the model. 


5.2. Limitations and Recommendations for Future Research 


Although the results of this paper add to the literature, several limitations 
must also be noted. First, the present study employed a cross-sectional 
research design. Therefore, it is still too early to draw causal conclusions 
about predictors of the quality of ICT use in teaching and learning in school 
during the pandemic. Consequently, our working model should be replicated 
in longitudinal research in order to examine long-term effects of the predictors 
on the quality of ICT use in teaching and learning in the context of distance 
or hybrid education. Second, we found that the teacher participants reported 
high levels of ICT self-efficacy (TPACK) on average. When interpreting the 
results, it was therefore not possible to clearly differentiate between good and 
very high ICT self-efficacy. Future research may want to integrate students’ 
perceptions of teachers’ ICT competences into the working model or even 
assessment results regarding teachers’ competences in using ICT in teaching. 
The third limitation concerned the measure of ICT equipment at school. We 
did not focus on the amount of ICT equipment, but rather on whether (or 
not) the ICT equipment at school was considered sufficient by individual 
teachers. Likewise, we asked teachers to retrospectively estimate whether (or 
not) they had witnessed investments in the school’s digital infrastructure 
in different areas in the past two years. It might be difficult for teachers to 
retrospectively rate some areas of investment such as fiber optic/broadband 
expansion, licensing of commercial online educational media, and stronger 
anchoring of media education in the school curriculum. In future research, 
there is a need to optimize assessment of this construct. 

Regarding the future recommendations, further studies may want to 
include further key factors proposed by Lorenz and Bos (2017), such as teach- 
ers’ attitudes towards media education in school, teachers’ collaboration on 
ICT-related activities, or ICT-related pedagogical support. Including these 
factors in the working model will help to better identify predictors of the 
quality of ICT use. Furthermore, it must be noted psychological factors such 
as teachers’ motivation are not included in the theoretical model by Lorenz 
and Bos (2017) as key factors for processes of teaching and learning with 
digital media. It might be interesting to take aspects of teachers’ motivation 
into consideration. In this article, we were not able to include students’ ICT 
competences as ultimate outcomes of the quality of ICT use in teaching and 
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learning in school. This aspect should be definitely taken into consideration 
in the future. 


5.3. Conclusion and Implications 


In the wake of the COVID-19 pandemic, schools worldwide should prepare 
for a new remote emergency way of teaching and learning that can take 
place either in school or at home. For this reason, media education in school 
has become even more significant than during the pre-pandemic era. The 
results of the current representative study lead to several recommendations 
for ensuring the quality of ICT use in teaching and learning in school during 
pandemic conditions. In the theoretical framework grounding the present 
study, Lorenz and Bos (2017) postulates that quality dimensions at different 
levels - ICT equipment, infrastructure, school development, personal devel- 
opment - are actually intercorrelated. To implement this framework - and 
more importantly, the results of the present study - in practice, all key factors 
should be implemented at the same time. First, to lay a strong foundation 
for media education in school, it is crucially important to provide sufficient 
digital infrastructure in schools - of all school types. The enormous funding 
available as part ofthe DigitalPakt schule (e. g., BMBF, 2021) can support this 
in every German federal state. Secondly, sufficient digital infrastructure or 
ICT equipment in schools may not matter if it are not used effectively. Thus, 
teachers require adequate ICT-related skills in order to use ICT in teaching 
and learning situations in schools more effectively. Most importantly, apart 
from ICT use in teaching, the ICT-related content addressed in professional 
development courses for teachers should focus on how to ensure better-quality 
ICT use in distance learning (e. g., how to ensure that the learning process is 
equivalent between on-site and distance classes, how to ensure that students’ 
ICT competences are sufficient to succeed in distance learning). 
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Towards the Measurability of a 
Competence Model for School- 
based Civic Education 


Pascal Alscher, Alyssa Grecu, Ulrich Ludewig, Nele McElvany 


Abstract 


The adoption of national educational standards in Germany in the early 
2000s represented a paradigm shift away from input-driven to output-driven 
educational practice and research. However, no standards were adopted for 
civic education. Against this background, we conceptualized and opera- 
tionalized a civic literacy competence model, which includes a political 
knowledge test as well as further dispositions in the areas of motivations, 
attitudes and volitions. With this study, we examine the extent to which the 
factorial structure of the model is supported by empirical data. In addition, 
measurement invariance, developmental sensitivity, and convergent and 
discriminant associations of the instruments were examined. Based on data 
from 1,047 German students attending 7th (n = 613, M,ge = 12.47; 47.4% 
female; 44.4 % immigrant background) or 10th grade (n = 434, M,,. = 15.49; 
47.7 % female; 35.9 % immigrant background), we calculated confirmatory 
factor analyses and mean comparisons. Furthermore, we specified and 
tested a nomological network. The results show that most of the theoretical 
assumptions are supported by the data. For political efficacy, a distinction 
should be made between internal and external political efficacy. In addi- 
tion, the data suggest that a common factor should be assumed for the 
willingness to politically and the willingness to civically participate scales. 
The application of the civic literacy framework shall provide important 
insights for the research and practice of (school-based) civic education. 


Keywords: civic education; civic literacy; educational standards; confir- 
matory factor analysis; measurement invariance 
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Zusammenfassung 


Die Verabschiedung nationaler Bildungsstandards in Deutschland in den 
frühen 2000er Jahren bedeutete einen Paradigmenwechsel weg von einer 
inputorientierten hin zu einer outputorientierten Bildungspraxis und -for- 
schung. Für den Politikunterricht wurden jedoch keine Standards verab- 
schiedet. Vor diesem Hintergrund wurde ein Kompetenzmodell zur poli- 
tischen Bildung konzeptualisiert und operationalisiert, das neben einem 
Test zum politischen Wissen auch weitere Dispositionen in den Bereichen 
Motivationen, Einstellungen und Volitionen umfasst. In dieser Studie wird 
untersucht, inwieweit die faktorielle Struktur des Modells durch empirische 
Befunde gestützt wird. Darüber hinaus wurden Messinvarianz, Entwick- 
lungssensitivität sowie konvergente und diskriminante Assoziationen der 
Instrumente untersucht. Basierend auf den Daten von 1.047 deutschen 
Schülerinnen und Schülern der 7. (n = 613, M,,. = 12,47; 47,4% weiblich; 
44,4 % Migrationshintergrund) bzw. 10. Klasse (n = 434, M,,. = 15,49; 
47,7 % weiblich; 35,9 % Migrationshintergrund) wurden konfirmatorische 
Faktorenanalysen und Mittelwertvergleiche gerechnet. Darüber hinaus 
wurde ein nomologisches Netzwerk spezifiziert und getestet. Die Ergeb- 
nisse zeigen, dass die meisten der theoretischen Annahmen durch die 
Daten gestützt werden. Beim politischen Effektivitätsgefühl sollte zwischen 
internem und externem politischen Effektivitätsgefühl unterschieden wer- 
den. Außerdem legen die Daten nahe, dass ein gemeinsamer Faktor für die 
Bereitschaft zur politischen und zivilgesellschaftlichen Partizipation ange- 
nommen werden sollte. Die Anwendung des Civic Literacy Frameworks 
soll wichtige Erkenntnisse für die Forschung und Praxis der (schulischen) 
politischen Bildung liefern. 


Schlagworte: Politische Bildung; Civic Literacy; Bildungsstandards; Kon- 
firmatorische Faktorenanalyse; Messinavarianz 


1: Introduction 


In 2001, the results of the first round of the Programme for International 
Student Assessment (PISA) were published (OECD, 2001). In Germany, the 
publication of the results was accompanied by a public outrage about the poor 
academic performance of German students (Lange, 2002). For weeks, Germa- 
ny’s disappointing ranking dominated the headlines and public discussion. 
While the poor performance in the Trends in International Mathematics and 
Science Study (TIMSS) four years earlier already revealed initial deficits, the 
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debate on the perceived qualitative decline ofthe German educational system 
and the demise of German students’ international competitiveness reached 
new heights in the winter of 2001/02 (Waldow, 2009). In the post-‘Pisa-shock’ 
period, a variety of reforms were initiated, such as a massive increase in edu- 
cational spending combined with better access to early childhood education, 
greater support for children from socioeconomically disadvantaged fami- 
lies, and an increase in the number of schools that offer all-day schooling 
(Ertl, 2006). Another reform of the post Pisa-shock period was the introduc- 
tion of national educational standards (nationale Bildungsstandards) by the 
conference of ministers of education (Kultusministerkonferenz, KMK) for a 
number of school subjects (Klieme et al., 2003). Educational standards were 
introduced for the subjects Mathematics, German, the first foreign language, 
biology, chemistry and physics. Critics complained that this would ennoble 
these subjects as core subjects (Kernfächer) and declare other subjects unim- 
portant (Koller, 2016). It was thus up to the accompanying didactic research 
communities of the remaining subjects to formulate educational standards. 
In Germany, the Society for Civic Education Didactics and Civic Youth 
and Adult Education (Gesellschaft fiir Politikdidaktik und politische Jugend- 
und Erwachsenenbildung, GPJE) presented a proposal for national educa- 
tional standards in school-based civic education (GPJE, 2004). The proposal 
subsequently served as the basis for further conceptualizations of educa- 
tional standards and competency models in civic education in the years 
after the Pisa-shock, such as May’s model for democratic competence (2007). 
However, the most well known competency model of school-based civic edu- 
cation in Germany is the model of political competence (Modell der Politik- 
kompetenz) by Detjen et al. (2012). It is a further development of the GPJE 
model (2004) and the standards of political knowledge by Weißeno et al. 
(2010). The model is based on a relatively broad educational-psychological 
concept of competence (see Weinert, 2001), which includes cognitive as well 
as affective, motivational, and volitional dispositions. Thus, political knowl- 
edge, motivations and attitudes as well as the abilities to make political judg- 
ments and to politically participate are dimensions of the model of political 
competence. The model has made a decisive contribution to the shift from 
normative to theory-driven and output-oriented didactics in civic education 
research (e. g., Massing, 2022). Despite a broad agreement within political 
didactics, the model has so far only been partially empirically tested. One 
reason for this is the operationalizability and hence the operationalization of 
the two dimensions ‘ability to make political judgments’ and ‘ability to polit- 
ically participate’. For the few existing operationalizations, a conflation with 
political knowledge can be observed (see May et al., 2020). The future task of 
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civic education research must therefore be to construct competence models 
that connect the normative ideas of the field with objective and empirical 
evidence. 

While there are standardized tests for the core subjects in Germany for 
verifying compliance with the educational standards, empirical evidence on 
the effectiveness of civic education with regard to the acquisition of com- 
petence falls short of expectations (e. g., Hedinger, 2018). The civic literacy 
framework presented in this contribution offers a way to comprehensively 
and systematically consider competence in the context of civic education 
(Alscher et al., 2022b). It therefore aims to advance educational monitoring 
and evaluation in order to benefit civic education research and practice. In 
the framework, civic literacy is defined as (1) the knowledge and skills to 
make informed decisions regarding socially and politically relevant issues, 
and (2) the dispositions for action (i.e., motivations, attitudes and volitions) 
that are necessary to implement the decisions made. Consequently, the 
framework includes the four main areas political knowledge, motivations, 
attitudes, and volitions. In the future, the framework will be the basis for 
civics assessments in the National Educational Panel Study (Nationales Bil- 
dungspanel, NEPS), which aims to collect longitudinal data on competence 
development, educational processes, educational decisions, and educational 
returns in Germany. 

Founded in 2009, the NEPS is a multilocational network of educational 
research institutions in Germany aiming to provide longitudinal data cover- 
ing formal, non-formal and informal educational contexts across the whole 
life course (Blossfeld, Maurice & Schneider, 2019) (NEPS, 2022). Doing so, 
NEPS is organized in eight pillars covering the different stages of learning in 
the life course. Major fields of interest are the development of competencies, 
educational decisions, learning environments, returns to education consid- 
ering the effects of social inequalities and immigration backgrounds as well 
as educational transitions. Civic Literacy is one main focus of pillar 4 which 
centers on lower secondary school as a critical bridge between elementary 
school and either the general educational or vocational higher secondary 
domain (Fabian et al., 2019). 

The surveys conducted as part of the second version of the Start Cohort 
Grade 5 (SC 8) of the NEPS will enable scientists, practitioners and policy 
makers to follow competency trajectories longitudinally throughout lower 
secondary education and to gain an impression of prognostic conditional 
relationships. 
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1.1. Dimensions of Civic Literacy 


Important characteristics of competencies are that they are domain-specific 
and learnable, and that their structure is based on the situation to which 
the competency is relevant (Hartig & Klieme, 2006). In German national 
empirical educational research, the model of political competence (Detjen 
et al., 2012) dominates the discourse. Internationally, the frameworks of the 
International Civic and Citizenship Education Study (ICCS: e. g., Schulz et 
al., 2022) and the framework of the Civics Assessment of the National Assess- 
ment of Educational Progress (Civic Asssessment of the NAEP: e. g., National 
Assessment Governing Board, 2018) are of particular importance. 

In ICCS 2022, political knowledge is the main aspect of the cognitive 
domains, which form the Civic Knowledge Framework. In addition, there 
are the two affective-behavioral domains Attitudes and Engagement that 
form the Civic Attitudes and Engagement Framework. One of the benefits of 
the frameworks in the ICCS is that the content is fully operationalized and 
tested. However, an unavoidable disadvantage of such a large international 
comparative study is that no reference can be made to the peculiarities of 
national political systems. Furthermore, assessments in ICCS 2022 are based 
on two different instead of one consolidated framework. 

For the Civics Assessment of the NAEP, the three dimensions (1) knowl- 
edge, (2) skills, and (3) dispositions are distinguished (National Assessment 
Governing Board 2018). The different dimensions are assessed together 
across different task formats (e. g., multiple choice, short- or long-answer 
questions). Each of the tasks represents two to three dimensions. The results 
are combined to an overall score. The determination of an overall score 
ensures an intuitive and simple interpretation of the results. However, with 
only an overall score there is no information about the performance in the 
specific dimensions of the framework. 

Using data from ICCS 2009, Hoskins et al. (2015) created a civic compe- 
tence composite indicator that includes the dimensions knowledge and skills 
for democracy, social justice values, participatory attitudes and citizenship 
values. Their competence composite indicator allows calculating and evalu- 
ating an overall score as well as the performance in the specific dimensions 
of the indicator. 

While there seems to be broad agreement among scholars that civic lit- 
eracy is a multidimensional concept, different frameworks and models were 
developed leading to the investigation of different dimensions (Wray-Lake 
et al., 2017). One of the differences, for example, is that the abilities to make 
political judgments and to politically participate from the German political 
competence model do not seem to play a role in the international frameworks 
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and models. This is mainly because civic literacy as such is understood as a 
precondition for engagement (Hoskins et al., 2015) and thus interferes with 
the concept of ability to politically participate and, to a lesser extent, with 
the ability to make political judgments. What most conceptualizations have 
in common, however, is political knowledge, political motivations, political 
attitudes, and political volitions. These are also the four dimensions of our 
civic literacy framework (see figure 1). Furthermore, the framework consists 
of facets. Two facets represent one dimension of the framework. This does 
not apply to the dimension of political knowledge, which has no separate 
facets. In contrast to educational achievement tests, the civic literacy frame- 
work is not referenced to curricula or instructional objectives (see Messick, 
1984, p. 217). The framework shall provide an opportunity to measure and 
evaluate students’ competence in the civic domain. 


Political Knowledge 


Political knowledge is usually considered a major tool for understanding the 
political world and everything related to it. It plays a vital role in the perception 
of the democratic system as well as current political events and is considered 
a desirable democratic outcome affecting voting behavior (Mondak, 2001). 
A widely accepted definition of political knowledge is that it encompasses 
“the range of factual information about politics that is stored in long-term 
memory” (Delli Carpini & Keeter, 1996, p. 10). As such, political knowledge 
is an important prerequisite for understanding political discourses and being 
able to classify their relevance, to process political information, and to gain an 
understanding about one’s own political preferences (Cramer & Toff, 2017). 
Research finds that knowledgeable citizens engage less often in unlawful 
political protest activities (Gil de Zúñiga & Goyanes, 2021) and are more 
likely to cast their vote (Gil de Zuniga & Diehl, 2018). However, knowledge- 
able citizens also have a higher tendency for opinion polarization (Herne et 
al., 2019) and are more likely to vote for populist parties (Stanley & Czesnik, 
2022). Based on data from ICCS 2016, it was found that there are significant, 
positive correlations between students’ political knowledge and their willing- 
ness to participate in politics in all 24 participating countries (Schulz et al., 
2018). The same finding was reported for 7th and 10th grade students from 
North Rhine-Westphalia in Germany (Alscher et al., 2022a). A recent system- 
atic review of research articles using the ICCS data shows that the cognitive 
domain has so far received comparably little attention claiming that more 
in-depth analyses of political knowledge are needed (Myoung & Liou, 2022). 
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Political Motivations 


Empirical evidence informed by the expectancy-value theory (EVT; Steinmayr 
et al., 2019; Wigfield & Eccles, 2000) suggests that individuals are motivated 
to engage in activities based on (1) the expectation of success and (2) the 
value they assign to the activity. In the past, EVT has proven to be a valuable 
resource in explaining students’ effort (Dietrich et al., 2017), career choices 
(Gaspard et al., 2019), achievement (Lauermann et al., 2017; Meyer et al., 2019) 
and attitudes - for instance towards future political participation (Levy & 
Akiva, 2019) or attributes of a ‘good’ citizen (Liem & Chua, 2013). The expecta- 
tion of success can be described as one’s belief to accomplish something in the 
future she or he set out to achieve. The difference towards one’s self-efficacy, 
namely one’s belief to be capable to accomplish something, is very small in 
civic education research (Levy & Akiva, 2019). The assigned value of an activ- 
ity is influenced by intrinsic value, attainment value, utility value, and cost 
(Eccles & Wigfield, 2002). Intrinsic value refers to the experienced enjoyment 
of an activity and is conceptually closely related to an individual’s interest 
(Wigfield & Eccles, 2000). In civic education research, both political interest 
and the feeling of political effectiveness are important concepts and powerful 
predictors of desirable civic outcomes (Rasmussen & Norgaard, 2018). 

Self-efficacy can be understood as a person’s conviction that he or she 
can cope with challenging situations (Bandura, 1977). In civic education 
research, political efficacy describes the extent to which an individual feels 
capable of influencing political debates and agenda setting, political deci- 
sion-making, and political officials (Rasmussen & Norgaard, 2018). Scholars 
distinguish between internal and external political efficacy. While inter- 
nal political efficacy expresses one’s own ability to influence the formation 
of political will, external political efficacy describes the perceived general 
responsiveness or collective suggestibility of the political system (e. g., Oberle 
& Wenzel, 2019). Indeed, empirical studies show that political effectiveness 
is related to expected future political participation (Levy & Akiva, 2019) and 
actual political participation (McDonnell, 2020). 

Political interest is an attitude and thus analytically and empirically to be 
distinguished from behavior. It can be defined as the extent to which politics 
arouses a citizen’s curiosity (van Deth, 1990). Empirical evidence suggests 
that political interest appears to be well approximated as a one-dimensional 
concept with a single underlying dimension capturing most inter-individual 
differences even when considering different aspects of politics (Prior, 2019). 
Similar to political efficacy, political interest has proven to be an important 
prerequisite for expected future political participation (Alscher et al., 2022a) 
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and actual political participation (Prior & Bougher, 2018; Stattin & Amnä, 
2022). 


Political Attitudes 


Attitudes are mental tendencies expressed by valuing a certain object with 
a certain degree of affection or rejection (Eagly & Chaiken, 1993). Political 
attitudes can be understood as acquired, enduring, often more strongly emo- 
tional orientations toward classes of persons or objects with a connection to 
political issues (Detjen et al., 2012). Attitudes toward (state-relevant) objects 
can be represented by an individual’s opinion about democracy while atti- 
tudes toward (social groups or classes of) people can be observed through 
an individual’s opinion regarding pluralism (Alscher et al., 2022b). For the 
opinion about democracy, a distinction must be made between the general 
agreement with the idea of democracy and its constituent principles on the 
one hand and the evaluation ofthe current state of democracy in a particular 
country and time period on the other hand (Gabriel, 2000). 

According to ICCS 2009 and 2016 data, adolescents from countries with 
more inclusive and multiculturalist policies showed more positive attitudes 
towards ethnic minorities than adolescents from countries with less inclu- 
sive and multiculturalist policies (Kim & Byun, 2019). With the exception 
of a shift towards more inclusive attitudes in terms of racial and gender 
equality, political attitudes remained rather similar between the 1999 and 
2009 CIVED/ICCS cohorts (Barber & Ross, 2019). Furthermore, ICCS 2009 
data shows that the introduction of inequality on the basis of achievement 
through academic segregation impedes positive attitudes towards social 
cohesion and other democratic values (Kavadias et al., 2017) 


Political volitions 


Volitions are cognitive processes that are related to the concrete realization 
ofaction goals in the context ofthe preactional and actional phases of action 
(Achtziger & Gollwitzer, 2010). In general, intentions are considered immedi- 
ate antecedents of actual behavior (Ajzen, 1991). In civic education research, 
too, political volitions are viewed as the closest proxy indicator for actual 
political behavior (Quintelier & Hooghe, 2013). Political volitions represent 
an individual’s willingness to participate in political or civic life including 
activities such as voting, protesting or joining a political party. Looking at 
youth’s intentions rather than their actual participation is the only wayto geta 
better understanding of minors’ future participation. This especially includes 


237 


activities that are either not available to them (e. g., voting), for which they 
need support (e. g., money from parents to be able to donate) or which are 
very unusual at a young age (e. g., joining a political party) (see McWhirter 
& McWhirter, 2016). From a theoretical point of view, participation activities 
can be divided into more civically oriented or latent political participation, 
and manifest political participation (Ekman & Amnä, 2012). Empirical evi- 
dence from the U.S and Italy indeed suggests a strong relationship between 
voting intentions and actual voting behavior (Ajzen et al., 1982; Roccato & 
Zogmaister, 2010). Furthermore, CIVED 1999 data suggests that school coun- 
cil involvement and volunteering are associated with greater expectations to 
become an informed voter and an active citizen (Homana, 2018). 


Figure 1: Civic Literacy Framework. 
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Note. From „Civic literacy — about the theory and measurability of competence in school-based civic 
education“ by Alscher et al., 2022, Zeitschrift fur Erziehungswissenschaft 
(https://doi.org/10.1007/s11618-02201085-0). CC BY 4.0. 


238 


2. Current Study 


The development of a competency model that enables the extensive assessment 
and evaluation of students’ civic literacy shall make an important contribu- 
tion to the optimization of civic education and its teaching practices. So far, 
there are hardly any fully operationalized civic literacy models. In addition, 
systematic analyses of the dimensions and facets of civic literacy are missing. 
With this study, we aimed to evaluate the degree to which our data supports 
the structure and assumptions of the proposed framework (American Educa- 
tional Research Association, American Psychological Association & National 
Council on Measurement in Education, 2014) and therefore investigated the 
following research questions: 


1. Is the theoretically assumed structure of the framework better sup- 
ported by the data than alternative, simpler models? 


1.1 


1.2. 


Are the seven facets modeled in the framework empirically 
separable into distinct factors? 

Given that the various facets of the framework represent com- 
plex and theoretically separable concepts, we expected that 
all facets are separable, but interrelationships (e. g. common 
factors) exist. In addition, we expected that all items are at least 
congeneric items, i.e., the factor loadings and error variances 
of the items may be different, but all items’ factor loadings 
reach substantial magnitude (A = .50). 

Is a hierarchical model with facets and dimensions better sup- 
ported by the data than a non-hierarchical model? 

We assumed that a hierarchical model is better supported 
by the data than a non-hierarchical model. The reason for 
this is the distinction between broader dimensions and more 
concrete facets. 


2. What levels of measurement invariance are present for the frame- 
work for 7th and 10th grade? 
We expected that configural, metric and scalar invariance holds 
indicating that the scores from each group have the same unit of 
measurement (factor loadings) and the same origin (intercepts). 
Hence, the latent means could be compared across 7th and 10th 
grade. 

3. What differences can be found for the mean scores of the frame- 
work’s facets between 7th and 10th grade? 
We assumed that all facets are developmentally sensitive and thus 
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more pronounced (i.e., have higher mean values) at the 10th grade 
level than at the 7th grade level. In addition, we assumed that politi- 
cal knowledge will be particularly higher, because knowledge trans- 
fer is a central goal and recurring component of (civic) education. 
4. How closely are the framework’s facets related to other facets of the 
framework (providing convergent evidence) and constructs that are 
unrelated to civic literacy (providing discriminant evidence)? 
We expected that the different facets of the framework are more 
closely related to each other than to sense of social affiliation, which 
is theoretically unrelated to civic literacy. Since the framework dis- 
tinguishes between facets and dimensions, we also assumed that 
facets attributed to the same dimension are more strongly related 
to each other than facets belonging to different dimensions. 


3. Methods 

3.1. Participants and Procedure 

Participants were 1,047 students attending 7th (n = 613, M,,. = 12.47; 47.4% 
female; 44.4 % immigrant background) or 10th grade (n = 434, Mge = 15.49; 
47.7 % female; 35.9 % immigrant background). Data were collected in fall and 
winter 2021/2022 in the context of the Study on the Development of Political 
and Civic Competence in Adolescence (Studie zur Entwicklung politischer 
und gesellschaftlicher Kompetenz im Jugendalter, EPKO). The schools were 
located in rural, semi-urban and urban areas of West-Germany in the federal 
state of North Rhine-Westphalia. The response rate was 72 %. Students not 
reached either did not have informed consent or were absent on the test day 
due to illness or quarantine measures. The share of students with an immi- 
grant background was with 41.8 % comparable to the official percentage of 
students with an immigration background in the same federal state in 2020 
(40.0 %, MSW, 2022). 

The assessments took place in the morning and took about two and a 
half hours including breaks. At the beginning of the assessments, the stu- 
dents worked on the knowledge test for one hour. After that, students took 
an 18-minute matrix test and a six-minute reading test to validate the knowl- 
edge test. Finally, all participants completed a questionnaire for about 40 
minutes. The study was conducted in compliance with the German Research 
Foundation’s (Deutsche Forschungsgemeinschaft, DFG) guidelines for good 
scientific practice. In addition, TU Dortmund university’s Joint Ethics Com- 
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mittee examined and approved the research project. Students could only 
participate in the study if they presented an informed consent signed by 
their parents at the beginning of the assessment. Without informed consent, 
students had to leave the classroom. Each class was awarded 50 EUR for their 
participation. 


3.2. Measures 
Political Knowledge 


The political knowledge test instrument included 63 items at the 7th grade 
level and 70 items at the 10th grade level. 34 items were answered by students 
in both grades, so that a total of 99 items were used. Some of the test items 
were taken from the POWIS-study (Goll et al., 2011) and adjusted if needed. 
The instrument targets different facets and content areas of political knowl- 
edge (Alscher et al., 2022b). In order to link the test results of the 7th and 
10th grade, we calculated a unidimensional multigroup 1-parameter model 
using R and the “TAM” package (Robitzsch et al., 2021). Before calibration, 
we detected rapid guessing behavior, which led to the deletion of 6.76% of 
the answers. We set the threshold for deletion at seven seconds of processing 
time. The threshold represents the local minimum between the two modes 
in the response time distribution (Wise, 2017). For every participant, we 
estimated a person parameter (0). Overall and grade-specific reliabilities are 
shown in table 1. 


Political Motivations 


Political Interest. We measured political interest with the Short Scale Mea- 
suring Political Interest (Politisches Interesse Kurzskala, PIKS, Otto & Bach- 
erle, 2011). Due to space constraints and after psychometric consideration 
of a prior assessment (Alscher et al., 2022a), only the first four items of the 
scale were used (e. g., “I observe political events with great interest.”). The 
introductory question in the two motivation scales read as follows: “To what 
extent do the following statements apply to you?” The students were asked to 
rate each item on a four point scale ranging from 1 = “doesn’t apply at all” to 
4 = “applies very well”. 


Political Efficacy. We measured political efficacy with the Political Efficacy 
Kurzskala (PEKS, Beierlein et al., 2014). The scale consists of two items on 
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internal (e. g., “I am good at understanding and assessing important political 
issues.”) and two items on external (e. g., “Politicians strive to keep in close 
touch with the people.”) political efficacy. 


Political Attitudes 


Attitude towards Democracy. We measured attitude towards democracy 
with a newly constructed four-item-scale. The introductory question read as 
follows: “When you compare democracy with other forms of government, 
how much do you agree with the following statements?” The items of the sale 
are (1) “Democracy is the best form of government there is.”, (2) “Democracy 
best ensures a just and fair society.”, (3) “Democracy is the best way to govern 
a country.”, and (4) “Democracy best protects fundamental freedoms.” 


Attitude towards opinion pluralism. We also measured attitude towards 
opinion pluralism with a novel four-item-scale. The introductory question 
read as follows: “To what extent do the following statements apply to you?” 
The items of the scale are (1) “All people should have the same opportunities 
to stand up for their opinions.”, (2) “The opinion of minorities should also 
be taken into account in decision-making.”, (3) “Dissenting opinions should 
be accepted and respected.”, and (4) “Everyone should have the right to stand 
up for their opinion, even if the majority disagrees.” 


Political Volitions 


Willingness to politically participate. We measured the willingness to politi- 
cally participate with a four-item-scale. The introductory question read “If you 
want to voice your opinion, how likely are you to take the following actions?” 
For each item, students chose a response on a four-point scale comprising 
0 = “not at all likely”, 1 = “rather not likely”, 2 = “rather likely”, and 3 = “very 
likely”. Each item refers to a different political activity, such as voting, pro- 
testing, signing a petition. 


Willingness to civically participate. We also measured the willingness to 
civically participate with a four-item-scale. The introductory question again 
read “If you want to voice your opinion, how likely are you to take the follow- 
ing actions?” Each item refers to a different civic activity, such as donating 
money, volunteering, boycotting products. 
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Control Variables 


Sense of social affiliation. We measured the sense of social affiliation with 
a scale from the NEPS (Bommel et al., 2022) including five items (e. g., I find 
it easy to make new friends”). The introductory prompt read “For each state- 
ment, please tell me how it applies to you using the scale.” The students were 
asked to rate each item on a six point scale ranging from 1 = “doesn’t apply 
at all” to 6 = “applies very well”. 


School grade. 7th grade was coded as 0 and 10th grade as 1. 


3.3. Data Analysis 


We conducted all analyses in R, mostly using the “lavaan” and “psych” pack- 
ages. Confirmatory factor analyses were performed to investigate the internal 
structure of the model. For this purpose, we compared a series of nested mod- 
els with each other. The first three models were non-hierarchical models and 
contained either facets (1), dimensions (2), or a global factor (3). Additionally, 
three hierarchical models contained either the facets (4) or the dimensions 
(5) and a global factor, or facets and dimensions but no global factor (6). 
We set the variance of the factors to one. All models included all items. We 
disallowed correlations between items in all models. Correlations between 
factors were allowed only when no other, higher factor was modelled. Prior 
to the CFAs, we tested the fitness of the dataset for performing factor analyses 
using the Kaiser-Meyer-Olkin test and the Bartlett’s Test of Sphericity. Based 
on the CFAs’ results, the model was adjusted. We used the adjusted model 
for further analyses. 

For the examination of measurement invariance between students in 7th 
and 10th grade, we performed a series of multiple group confirmatory fac- 
tor analyses (MGCFA), which test the invariance of estimated parameters 
of two nested models across different groups (Cheung & Rensvold, 2002). 
The first MGCFA was specified for each group separately without any equal- 
ity constraints. For this baseline model, we assessed the overall model fit to 
examine whether configural invariance holds. In a second model, we con- 
strained factor loadings to be equal across 7th and 10th graders to check for 
metric invariance. By comparing the fit of the baseline model and the metric 
model, we can determine whether metric invariance holds. After establish- 
ing metric invariance, scalar invariance can be tested by specifying a third 
model with both constrained factors and intercepts. By comparing the met- 
ric model and the scalar model, we can determine whether scalar invariance 
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holds. A common statistic for assessing differences in fit between two nested 
models is the Likelihood Ratio Test. However, x? difference tests were criti- 
cized for their dependence on sample size (e. g., Lee & Smith, 2020). Hence, 
we also used differences in the comparative fit index (ACFI) to evaluate 
meaningful change in model fit (Cheung & Rensvold, 2002). When sample 
size is rather large (N > 300) and sample sizes are comparable across groups, 
changes in the root-mean-square error of approximation (RMSEA), and the 
standardized root mean square residual (SRMR) can also be evaluated to 
identify noninvariance (Chen, 2007). For testing metric invariance, a change 
of = -.010 in CFI, supplemented by a change of = .015 in RMSEA or a change 
of = .030 in SRMR would indicate noninvariance. For the examination of 
scalar invariance a change of > -.010 in CFI, supplemented by a change of = 
.015 in RMSEA or a change of > .010 in SRMR would indicate noninvariance 
(Chen, 2007). 

In contrast to achievement tests, changes in competency measures are 
not only attributed to instructional sensitivity (Ing, 2018). In competence 
research, both school and non-school characteristics are considered as pos- 
sible sources of development (Messick, 1984). Together, these characteristics 
represent the developmental sensitivity of a test. We tested the developmen- 
tal sensitivity of the framework by comparing the mean values between 7th 
and 10th graders using an unpaired two-samples t-test. Before comparison, 
we weighted students’ responses based on type of school. 

We obtained convergent and discriminant evidence by specifying and 
evaluating a nomological network (Cronbach & Meehl, 1955). For this pur- 
pose, we identified three nomological orders. The first order represented 
correlations between facets from the same dimension of the framework. 
The second order represented correlations between facets from different 
dimensions of the framework. To this end, the facets of the framework were 
correlated with political interest, which is a central facet of the framework. 
Exceptions are political effectiveness and political interest itself. These two 
facets were correlated with attitude towards democracy. The third order rep- 
resented correlations between facets of the framework and sense of social 
affiliation, which is theoretically unrelated to civic literacy. We compared 
the magnitude of correlations of the three orders with each other. Any dif- 
ferences in correlations were tested for statistical significance. 

In this study, we evaluated global model fit with the comparative fit index 
(CFI), the Tucker-Lewis Index (TLI), the RMSEA, and the SRMR, using the 
following fit criteria for acceptable fit: CFI = .900, TLI = .900, RMSEA < .100, 
SRMR < .100 (Weston & Gore, 2006). In addition, x’, the Akaike informa- 
tion criterion (AIC) and the Bayesian information criterion (BIC) were used 


244 


for comparative model fit. In all models, we treated political knowledge as a 
latent variable with a single indicator. We controlled for the clustered struc- 
ture ofthe data by using class (n = 69) as the cluster variable, thus enabling 
the computation of robust standard errors of the parameters estimated in 
the CFAs. We handled missing data through full information maximum 
likelihood (FIML) method. Supplemental material (e. g. the full scales, addi- 
tional analyses) and the script are available at https://osf.io/tr8jp/. 


4. Results 
4.1. Descriptive Statistics 


Table 1 shows the latent correlation coefficients, mean, standard deviations 
and range as well as the response rate and reliability for each of the constructs. 
The mean score of the political knowledge is slightly above 0. This is because 
in the process of scaling the average score of the 7th graders was set to 0. The 
average score of the 10th graders is 0.53. Average scores for the other variables 
are a little above the midpoint of the response scales. The only exception is 
the attitude towards opinion pluralism, whose average value of 3.39 is well 
above the midpoint and close to the maximum value of 4.00. 

All 1,047 participants completed the political knowledge test. The reason 
for the quantitative variance in the response rates of the different constructs 
is the positioning of the instruments in the questionnaire. Due to internal 
school processes and stricter hygiene standards imposed by the pandemic, 
it was not possible to ensure that all participants were able to complete all 
questions in every survey for time reasons. 

As expected, the bivariate correlations in Table 1 show moderate to 
strong, statistically significant correlations. The correlations between polit- 
ical interest and political efficacy as well as the correlations between will- 
ingness to politically and willingness to civically participate are particularly 
high. Again, this is not surprising when considering that in both cases both 
facets belong to the same dimension (i.e., political motivations and political 
volitions). 

The WLE reliability for the knowledge test was good. The McDonald’s w 
for almost all other scales was acceptable to excellent (2 .70). The exceptions 
were attitude towards opinion pluralism across the two grades (w = .66) and 
in the 10th grade (w = .63), and willingness to civically participate in the 10th 
grade (w = .68). 
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Table 1: Means, standard deviations, and correlations. 


Variable 4. 2 3 4 5 6 7 8 

1. Political knowledge - 

2. Political interest? .36 - 

3. Political efficacy? 42 81 - 

4. Attitude towards democracy? oF 38 -50 - 

5. Attitude towards opinion pluralism? 39 18 “28: .39 - 

6. Willingness to politically participate® .36 42 46 231. .30 - 

7. Willingness to civically participate® -36 .30 .31 327. 31 98 - 

8. Sense of social affiliation .01 .14 „21 14 .21 .17 .18 - 

M 0.23 2.17 2.36 2.95 3.39 2.38 2.49 2.83 

SD 0.86 0.76 0.59 0.75 0.68 0.71 0.66 0.55 

Actual Range B.1.7-3.1 1-4 1-4 1-4 1-4 1-4 1-4 1-4 

n 1047 994 948 947 867 750 753 750 

McDonald’s w °.89 88 78 .89 .66 78 ‚72 72 
Grade 7 °.89 88 19 89 91 19 16 TA 
Grade 10 °.88 89 16 89 63 16 68 15 


Note. M and SD represent mean and standard deviation, respectively. Correlations printed in bold 
reached statistical significance at the 5% level. 


aM and SD are calculated using the row means of the variable indicators. rounded to one decimal 
place. “Instead of McDonald’s w, the WLE reliability is reported. 


4.2. Framework Evaluation 


We tested the factorability of the data with the Kaiser-Meyer-Olkin test 
(KMO). The KMO value for the present data is .90 and exceeds the suggested 
cutoff value of .60, indicating that a factor analysis can probably be conducted 
(Kaiser & Rice, 1974). The sphericity of the data was tested with Bartlett’s Test 
of Sphericity. The test suggests that there is probably sufficient significant 
correlation in the data in order to perform a factor analysis (X(300) = 7768, 
p <.001). 

For the comparison of the models, model 1 was used as the baseline 
model. Table 2 shows that model 1 and model 6 outperform all other models 
with regard to different goodness of fit indicators. The x? test suggests that 
model 1 fits the data the best among the specified models. The AIC also 
favors model 1. However, the BIC favors model 6 over model 1 (ABIC = -22). 
In contrast to the AIC, the BIC awards a bigger penalty for additional param- 
eters and thus favors parametrically simpler models. Model 6 has fewer cor- 
relations and thus fewer parameters than model 1. 


246 


Table 2: Comparison of Fit Indices in different nested CFAs. 


x2 Robust RMSEA A A 

Model $s atc BIC 

Value df p° Value 90% CI AIC BIC 
M1: Facets only 989 256 = 051  [.047,.055] 49121 49587 - - 
M2: Dimensions only 2799 271 <.001 .094 [.091,.097] 50901 51292 1780 1705 
M3: G-factor only 5370 275 <.001 .134 [.131,.137] 53565 53936 4444 4349 
M4: Facets & g-factor 1706 270 <.001 .070 [.067,.074] 49810 50206 689 619 
M5: Dimensions & g-factor 3017 273 <.001 .097 [.094,.101] 51116 51497 1995 1910 
M6: Dimensions & facets 1029 265 <.001 .051 [.048,.055] 49144 49565 23 -22 


Note. RMSEA = root-mean-square error of approximation; Cl = confidence interval; AIC = Akaike infor- 
mation criterion; BIC = Bayesian information criterion. 


@The x? of Model 1 is used as the benchmark. 


Model 1 has an overall acceptable global model fit (CFI: .926; TLI: .913; 
RMSEA: .052; SRMR: .077; see figure B1). All factor loadings reached signif- 
icance at the 5% level. In addition, almost all factor loadings reached sub- 
stantial magnitude (A = .50) except for items c3 and c4. While items cl and c2 
loaded highly on political efficacy, items c3 and c4 showed rather low loadings 
on political efficacy (A = .41 and .41 respectively). Eventually, factor loadings 
for the items of the willingness to civically participate facet were overall only 
moderate in size (.50 < À < .61). Furthermore, the correlation between the two 
willingness facets is particularly high suggesting that the two factors might 
measure the same construct. We found similar patterns of results in model 6 
(see figure B2). There too, the items of the willingness to civically participate 
have rather moderate factor loadings. Furthermore, items cl and c2 again load 
more strongly on the political efficacy facet than items c3 and c4. Eventually, 
the modification indices added to the impression, that the political efficacy 
scale and the two willingness scales cause problems. 

Based on these findings, we adjusted model 1. We combined the two will- 
ingness facets into one single facet. However, we were unable to separate 
the political efficacy facet into an internal and an external political efficacy 
facet, because there are not enough items available in the current framework. 
The adjusted model (see figure 2) was compared to model 1 and model 6 
(see table B1). The x’ and AIC still favor model 1, but the BIC now favors the 
adjusted model. All further analyses will be carried out using the adjusted 
model. 
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Figure 2: Confirmatory factor analysis (adjusted model). 
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Note. CFI: .925; TLI: .914; RMSEA: .052; SRMR: .078. 
All factor loadings and correlations reached statistical significance atthe 5% level. 


For the testing of measurement invariance by class grade, we used the adjusted 
model as the baseline model. The configural model exhibited an acceptable 
model fit (see table 2). Regarding metric invariance, the x? test suggests that 
the configural model does not fit the data statistically significantly better than 
the metric model. In addition, neither the drop in the CFI (ACFI = .000) or 
the RMSEA (ARMSEA = .000), nor the drop in the SRMR (ASRMR = -.010) 
exceed the suggested threshold indicating metric invariance. In terms of scalar 
invariance, the x? test suggests that the metric model fits the data statistically 
significantly better than the scalar model. However, the drop in the CFI is 
below the .007 threshold (ACFI = .005) and the CFI itself remains on an 
acceptable level. Furthermore, the RMSEA (ARMSEA = .000) and the SRMR 
(ASRMR = .000) remain stable. 
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Table 3: Measurement invariance between 7th and 10th grade. 


Model ee Es Eur‘ CFI RMSEA SRMR 
Value df p° 

1. Configural model 1338 524 .918 .054 .095 

2. Metric model 1357 542 .096 .918 .054 .085 

3. Scalar model 1425 561 <.001 .913 .054 .085 


Note. CFI = comparative fit index; RMSEA = root-mean-square error of approximation; 
SRMR = standardized root mean square residual. 


@The x? of the metric model was compared to the x? of the configural model. The x? of the scalar model 
was compared to the x? of the metric model. 


Next, we tested the developmental sensitivity of the framework by comparing 
the facets’ means between the 7th and 10th grade. All means were higher in 
the 10th grade than in the 7th grade (see table Al). The differences between 
the means were statistically significant at the 5% level for political knowl- 
edge, political interest, attitude towards democracy and attitude towards 
opinion pluralism, and not significant for political efficacy and willingness 
to participate. 

The correlations between the facets of the framework and sense of social 
affiliation largely correspond to the assumed nomological network (see table 
A2). The correlational relations of the first order are the largest for all facets 
while the relations of the third order are the smallest. The only exception is 
attitude towards democracy, for which the third order relation is larger than 
the second order relation. All other differences in correlations were signifi- 
cant at the 5% level with two exceptions. The correlation between attitudes 
towards democracy and attitude towards opinion pluralism (r = .39, p < .001) 
was statistically only insignificantly higher (A = .01, p = .850) than the cor- 
relation between attitude towards democracy and political interest (r = .38, 
p < 001). Moreover, the correlation between willingness to participate and 
political interest (r = .37, p < .001) was statistically only insignificantly higher 
(A = .20, p = .920) than the correlation between willingness to civically par- 
ticipate and sense of social affiliation (r = .17, p = .008). 


5. Discussion 


Gradual declines of democratic regime attributes characterize contempo- 
rary autocratization (Luhrmann & Lindberg, 2019). It is therefore perhaps 
more important than ever to understand what constitutes a civically literate 
citizen and to unravel what factors play a role in the development of young 
people on their way to becoming democratic and active citizens (Oberle, 2022). 
However, previous research has usually focused on separate areas of civic 
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literacy, thereby often relegating either cognitive or affective dimensions to a 
different sphere. Thus, holistic overviews and conceptualizations of youth’s 
civic literacy are uncommon (see Keegan, 2021). In addition, existing con- 
ceptualizations are usually rooted solely in theoretical considerations, while 
empirical examinations of the proposed frameworks are absent. Before data 
collection, a panel of experts consisting of six professors for political didactics 
as well as the study director of an international large-scale assessment on civic 
education assessed the adequacy of the civic literacy framework’s content 
(Alscher et al., 2022b). 

The results of this study show that the structure of the suggested civic 
literacy framework fits the data overall well and most expectations are 
met. Regarding the internal structure of the model, correlations, and the 
CFAs give rise to the assumption that internal and external political effi- 
cacy should be viewed as two separate constructs. Indeed political efficacy 
is often understood as a bidimensional belief that includes distinct external 
and internal components (Ardevol-Abreu et al., 2020; Oberle, 2018). Previ- 
ous research has shown that internal and external efficacy have different 
meanings with regard to the political socialization of young people. For 
instance, the education effect on internal efficacy is considerably more con- 
founded by personality traits than the educational effect on external efficacy 
(Rasmussen & Norgaard, 2018). Future studies should make sure to assess 
internal and external political efficacy separately and with enough items. 
Furthermore, the willingness to politically and the willingness to civically 
participate correlate highly and both load particularly high on the political 
volitions dimension. In addition, the item loadings are only mediocre. We 
therefore adjusted the framework accordingly (see figure 3). 

Using the adjusted model, scalar measurement invariance was estab- 
lished according to the ACFI, ARMSEA and ASRMR. Furthermore, the 
overall model fit remains rather high across the different MGCFAs. 

Unlike previous studies, the framework is designed to enable a longitu- 
dinal assessment of civic literacy. For this purpose, it is important that the 
framework is developmentally sensitive and reflects processes of students’ 
political socialization. The comparison of the 7th and 10th grade cohort 
shows that all framework facets’ means are higher in the 10th grade than 
in 7th grade. However, magnitudes of the differences vary with regard to 
statistical significance and effect sizes. Especially political knowledge seems 
to increase from 7th to 10th grade. This is not surprising when one consid- 
ers that it is primarily cognitive processes and thus knowledge transfer that 
play a central role in civic education, whereas aspects of political practice 
are at best of marginal importance (Widmaier & Nonnenmacher, 2011). We 
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can observe a mediocre difference for political attitudes. However, one of 
the limitations here is that the identified difference might be confounded 
by the fact that 7th graders are less familiar with the terms that were used 
(e. g., democracy, minority/majority) and therefore might have a stronger 
tendency for the midpoint of the scale. Rather counterintuitively, we found 
only small differences for political efficacy and willingness to participate. 
Possible reasons for this could be that younger students might have lower 
estimates of potential costs for meaningful engagement, assign greater value 
to engagement or expect higher rewards from actively participating in civic 
and political life. Moreover, students’ decision to become active might not 
(only) be associated with their absolute but instead their relative level of 
political knowledge, attitudes or abilities compared to their peers. Hence, 
participation patterns could be different within a particular class and grade 
level but rather equal across classes and grade levels. The general mechanism 
is also known as the ‘big fish little pond’-effect, which has already proven 
helpful in explaining differences in inequality of civic and political engage- 
ment (Witschge, 2022). Future research should strive for a better under- 
standing of this relationship. 

The investigation of the nomological network suggests that facets of the 
framework are more related to each other than to a construct that is theoret- 
ically unrelated to civic literacy. Furthermore, facets of the same dimension 
are usually more strongly associated with each other than facets of different 
dimensions. The framework’s constructs thus demonstrate convergence and 
discrimination. The only exception is attitude towards democracy, which has 
very similar correlations with attitude towards opinion pluralism and with 
political interest. Upon closer examination, the bigger problem seems to be 
the convergence between the two attitude constructs, since the correlation 
between the two is comparatively weak. This impression is also confirmed 
by the CFA of model 6 (dimensions and facets), which suggests that the two 
attitude facets load rather differently on the political motivation dimension. 
A possible reason for this could be that attitude towards opinion pluralism is 
less strongly concerned with original political topics. Instead, a social aspect 
resonates in this facet since the exchange of opinions is something that stu- 
dents experience regularly outside the political arena in their everyday life. 
This needs to be taken into account in future applications of the framework 
but also when other political motivations are assessed. 
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Figure 3: Adjusted Civic Literacy Framework. 
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Note. From „Civic literacy — about the theory and measurability of competence in school-based civic 
education“ by Alscher et al., 2022, Zeitschrift für Erziehungswissenschaft 
(https://doi.org/10.1007/s11618-02201085-0). CC BY 4.0. 


6. Conclusion 


While the empirical assessment of competencies in the school context has 
gained in importance in the past two decades, there are comparatively few 
studies with the aim of systematically assessing civic literacy. We therefore 
aimed to realign the conceptual and empirical foundations of civic literacy 
research by empirically examining the conceptualized civic literacy frame- 
work. The results show that the framework fits the data overall well and most 
theoretical assumptions are confirmed. However, political efficacy should be 
distinguished between external and internal political efficacy. In contrast, 
there is no clear differences between the willingness to politically and the 
willingness to civically participate. The framework outlined in this study is 
to be applied in future studies of political socialization as well as empirical 
educational research and political psychology. This includes, in particular, the 
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National Educational Panel Study (NEPS; Blossfeld and Roßbach 2019), for 
which civic literacy was included in the canon of competencies to be assessed 
in grades 7 and 10. The application of the civic literacy framework, or parts 
of it, shall provide important insights for future research and practice of 
(school-based) civic education. 
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Appendix A 


Convergent and Discriminant Evidence, and Instructional Sensitivity 


Table A1: Means of framework constructs in grade 7 and 10. 


Framework construct M Grade 7 M Grade 10 A (p) 

Political knowledge 0.03 0.75 0.72 (< .001) 
Political interest 2.14 2.23 0.10 (.225) 
Political efficacy 2.39 2.40 0.01 (.943) 
Attitude towards democracy 2.92 3.14 0.22 (.020) 
Attitude towards opinion pluralism 3.30 3.51 0.21 (.001) 
Willingness to participate 2.42 2.48 0.06 (.467) 


Note. M represents mean. 


Table A2: Correlations within and across framework dimensions and with sense of 


social affiliation. 


Framework construct Within dimension PI/ATD? SOSA 
Political knowledge -? .36 > -.01° 
Political interest BI > -38° > .14° 
Political efficacy 81 > 250° > .21° 
Attitude towards democracy 39 > 38 > „14° 
Attitude towards opinion pluralism .39 > 48° < „21 
Willingness to participate -= > st > .17 


Note. PI = Political interest; ATD = Attitude towards democracy; SOSA = Sense of social affiliation. 


Correlations printed in bold reached statistical significance at the 5% level. 


aFor the cross-dimensional correlations, political interest was used. The exceptions were political effi- 
cacy and political interest itself, for which attitude towards democracy was used instead. "The political 
knowledge dimension consisted of only one construct. ‘The correlation differs from the correlation to 


the left of it at the 5% level of significance. 
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Appendix B 


Additional Confirmatory Factor Analyses 


Figure B1: Confirmatory factor analysis (model 1). 
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Note. CFI: .926; TLI: .913; RMSEA: .052; SRMR: .077. All factor loadings and correlations reached 
statistical significance atthe 5% level. 
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Figure B2: Confirmatory factor analysis (model 6). 
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Note. CFI: .923; TLI: .913; RMSEA: .052; SRMR: .080. When not reported otherwise, factor loadings/ 
correlations reached statistical significance at the 5% level. 


a Factor loading/covariance did not reach significance. 


Table B1: Comparison of Fit Indices in different CFAs. 


Model x Robust RMSEA AIC BIC A A 
Value df p? Value 90% CI AIG BIC 
M1: Facets only 989 256 - .051 [.047,.055] 49121 49587 - - 
M6: Dimensions & facets 1029 265 < .000 .051 [.048,.055] 49144 49565 23 -22 
Adjusted Model 1008 262 .004 .051 [.047,.055] 49129 49564 8 -23 


Note. RMSEA = root-mean-square error of approximation; Cl = confidence interval; 
AIC = Akaike information criterion; BIC = Bayesian information criterion. 


@The x? of Model 1 is used as the benchmark. 
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Promoting Motivation in 
Mathematics: Can a Relevance 
Intervention Contribute to Reducing 
Educational Disparities? 


Hanna Gaspard, Cora Parrisius & Benjamin Nagengast’ 


Abstract 


According to expectancy-value theory (Eccles et al., 1983) and corre- 
sponding research, when students have high expectancies of success in a 
domain and attach great value to it, they show more effort and obtain higher 
achievement. Educational disparities that depend on gender and family 
background can further be explained through differences in expectations 
of success and value beliefs. Against this backdrop, interventions to pro- 
mote the perceived relevance of learning content have been shown to be a 
potential avenue for promoting motivation and achievement, particularly 
for “at risk” groups. In this paper, data from a large cluster-randomized 
trial testing a relevance intervention in mathematics with 78 ninth-grade 
classrooms (Gaspard et al., 2021) were used to examine whether interven- 
tion effects differed by students’ demographic characteristics. Small to 
moderate differences in motivation and achievement that depended on 
gender, parental education, and migration background were found before 
the intervention. However, there was little evidence that these student char- 
acteristics moderated the effects of the intervention. Therefore, the inter- 
vention did not seem to contribute to reducing educational disparities - at 
least not when applied in the same way for all students as was done here. 


Keywords: educational disparities; gender; intervention; mathematics; 
migration background; motivation; parental education 


1 This research was supported by the Eliteprogramme for Postdocs of the Baden-Württem- 
berg Stiftung and the Institutional Strategy of the University of Tübingen (Deutsche For- 
schungsgemeinschaft, ZUK 63). We thank Heide Piesch, Eike Wille, and Ulrich Trautwein 
for their support in conducting this research. 
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Zusammenfassung 


Wenn Schüler*innen in einem Fach eine hohe Erfolgserwartung haben und 
ihm einen hohen Wert beimessen, zeigen sie nach der Erwartungs-Wert- 
Theorie (Eccles et al., 1983) und entsprechender Forschung mehr Anstren- 
gung und bessere Leistungen. Bildungsdisparitäten in Abhängigkeit von 
Geschlecht und familiärem Hintergrund können zudem durch Unter- 
schiede in Erfolgserwartung und Wertüberzeugungen erklärt werden. Vor 
diesem Hintergrund haben sich Interventionen zur Förderung der wahrge- 
nommenen Relevanz der Lerninhalte als eine Möglichkeit zur Förderung 
von Motivation und Leistung erwiesen, insbesondere für „Risikogruppen“. 
Im vorliegenden Beitrag wurde daher anhand von Daten einer großen 
Cluster-randomisierten Studie zur Testung einer Relevanzintervention in 
Mathematik mit 78 neunten Klassen (Gaspard et al., 2021) untersucht, ob 
die Interventionseffekte durch demografische Schüler*innenmerkmale 
moderiert wurden. Es zeigten sich kleine bis mittlere Unterschiede in Moti- 
vation und Leistung vor der Intervention in Abhängigkeit von Geschlecht, 
elterlicher Bildung und Migrationshintergrund. Jedoch ergab sich wenig 
Evidenz dafür, dass diese Schiiler*innenmerkmale die Effekte der Interven- 
tion moderierten. Die Intervention scheint somit nicht dazu beizutragen, 
Bildungsdisparitäten zu reduzieren - zumindest nicht, wenn sie wie hier 
für alle Schüler*innen gleichermaßen angewandt wird. 


Schlagworte: Bildungsdisparitäten; Geschlecht; elterliche Bildung; Inter- 
vention; Mathematik; Migrationshintergrund; Motivation 


1. Introduction 


When students perceive mathematics as valuable to themselves, they are more 
engaged in learning and show higher performance in mathematics, and they 
also choose to pursue math-related courses and careers more often (e. g., 
Guo et al., 2018; Marsh et al., 2005; Simpkins et al., 2006; Song et al., 2020). 
However, many adolescents do not see the relevance of mathematics for their 
lives, and their value beliefs tend to decrease across secondary school (Gas- 
pard et al., 2022; Harackiewicz et al., 2010; Watt, 2004). Given the relevance 
of mathematical competencies for many careers in- and outside of science, 
technology, engineering, and mathematics (STEM; Anger et al., 2021; Ten- 
orth, 2001), it is thus important to find ways to help students see the value 
of mathematics so that they keep motivated and perform up to their poten- 
tial. Some students are at a particularly high risk for low motivation and 
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achievement in mathematics. The risk factors that have been identified in 
prior research include being female (e. g., Gaspard et al., 2022; Jansen & Stanat, 
2015), having parents with a relatively low level of education (e. g., Simpkins 
et al., 2006; Svoboda et al., 2016), and having a migration background (e. g., 
Jansen & Stanat, 2015; Stanat & Christensen, 2006). Furthermore, differences 
in students’ motivational beliefs, including their task values, according to 
their gender and family background can help to explain corresponding dif- 
ferences in students’ math-related career choices (e. g., Guo et al., 2015, 2018; 
Kriegbaum & Spinath, 2016). Therefore, promoting students’ value beliefs in 
mathematics can be a possible avenue toward fostering students’ educational 
outcomes in math-related areas in general and toward reducing educational 
disparities in this domain. 

Drawing on (situated) expectancy-value theory (Eccles et al., 1983; Eccles 
& Wigfield, 2020), researchers have developed and tested interventions that 
are aimed at promoting students’ motivation by targeting the utility value or 
perceived relevance of the learning content for students’ lives. Such relevance 
interventions (or utility value interventions, see Hulleman & Harackiewicz, 
2021) can have positive effects on students’ motivation, achievement, and 
course choices. Moreover, the effects of these interventions have often been 
found to be larger for students who are at risk for low motivation in the par- 
ticular context (e. g., Gaspard, Dicke, Flunger, Brisson, et al., 2015; Harack- 
iewicz et al., 2016; Shin et al., 2022; Weidinger et al., 2022). Although these 
findings suggest that such interventions can be a useful tool for educational 
practice, many previous studies were conducted with a relatively high level 
of control exerted by the researchers. Therefore, research is still needed to 
test whether positive effects can be found under conditions that are closer 
to educational practice. Furthermore, many previous studies relied on rela- 
tively small samples, which make it difficult to investigate the heterogeneity 
of intervention effects across different student characteristics. Therefore, in 
this study, we used data from a large effectiveness trial in 78 classrooms to 
examine whether heterogeneity in the effects of the Motivation in Mathe- 
matics (MoMa) intervention, a relevance intervention for ninth-grade math 
classrooms, depended on students’ gender, migration background, or paren- 
tal education (for the main effects of the intervention, see Gaspard et al., 
2021). 
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1.1. Expectancy-Value Theory as an Approach for Explaining 
Differences in Achievement-Related Choices 


Relevance interventions such as the MoMa intervention can be grounded 
in Eccles et al.’s (1983) expectancy-value theory, which has recently been 
renamed situated expectancy-value theory (SEVT; Eccles & Wigfield, 2020). 
According to this theory, students’ academic choices in a specific domain are 
most directly predicted by their expectancies of success and their subjective 
task values in this domain. Expectancies of success are conceptually close to 
other constructs that refer to competence-related beliefs, such as self-concept 
(a student’s subjective evaluation of their ability in a specific domain) and 
self-efficacy (a student’s belief about their ability to perform a specific task at 
a designated level; Wigfield & Eccles, 2000). However, these different beliefs 
are typically highly correlated and not always separated in empirical research 
(Eccles & Wigfield, 2020). In line with our theoretical background, we there- 
fore use the term expectancies to refer to all competence-related beliefs. With 
respect to subjective task value, Eccles and colleagues (1983) distinguished 
four major components: intrinsic value (enjoyment of a given domain), attain- 
ment value (the personal importance of doing well in a domain), utility value 
(the perceived usefulness of a domain for achieving one’s goals), and cost 
(perceived negative consequences of engaging in a domain). Whereas the first 
three components contribute positively to subjective task value, cost reduces it. 
Prior research has successfully used SEVT to explain educational dispar- 
ities in achievement-related behaviors through their motivational beliefs. In 
particular, much attention has been devoted to gender differences in math- 
ematics. In line with typical gender stereotypes, female adolescents report 
lower expectancies and also tend to report lower values in this domain than 
their male peers (e. g., Gaspard et al., 2022; Marsh et al., 2005; Watt, 2004). 
However, gender differences in math values have been found to depend on 
the value component that is considered, and the most consistent differences 
have been found for intrinsic value (e. g., Gaspard, Dicke, Flunger, Schreier, 
et al., 2015; Watt, 2004). Such gender differences in motivational beliefs can 
help explain gender differences in math-related course and career choices 
(e. g., Gaspard et al., 2019; Guo et al., 2015, 2018; Simpkins et al., 2006). 
SEVT can also contribute to explaining disparities in students’ achieve- 
ment-related choices on the basis of their family background. Eccles and 
colleagues postulated that family and parent characteristics (e. g., parental 
education) impact their children’s expectancies, values, and achievement-re- 
lated choices through parents’ beliefs and behaviors (Eccles & Wigfield, 
2020). These assumptions have largely been supported. For instance, Svo- 
boda et al. (2016) found that parental education predicted mathematics and 
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science course taking in high school and that this prediction was partially 
mediated through parents’ and students’ motivational beliefs about these 
domains. Similarly, in a longitudinal addition to the Programme for Inter- 
national Student Assessment (PISA) in Germany, Kriegbaum and Spinath. 
(2016) found that students’ math competence beliefs and interest mediated 
the associations between parents’ socioeconomic status and students’ math 
achievement. However, prior evidence on associations between family char- 
acteristics (e. g., parental education and socioeconomic status) and students’ 
motivational beliefs in mathematics remains mixed (studies reporting sig- 
nificant associations: Guo et al., 2015; Hafner et al., 2017; Simpkins et al., 
2006; studies reporting nonsignificant assocations: Gladstone et al., 2018; 
Weidinger et al., 2022). 

Another important family background factor concerns the question of 
whether the students’ family has a migration background. In Germany, as 
in many other countries, students with migration background tend to show 
pronounced gaps in their math achievement compared with students with- 
out migration background (Jansen & Stanat, 2015; Stanat & Christensen, 
2006). One might therefore assume that they will also report lower motiva- 
tional beliefs. However, in an analysis of the PISA data, Stanat and Chris- 
tensen (2006) found that students with migration background reported 
higher interest and enjoyment, instrumental motivation, and self-concept 
in mathematics compared with students without migration background in 
most countries, especially if they were first-generation immigrants. This 
pattern of findings can be explained by the immigrant optimism hypothesis, 
which postulates that individuals with migration background are especially 
motivated to be successful in school and thus to improve their social position 
(Kao & Tienda, 1995). However, Stanat and Christensen (2006) also found 
that students with a migration background reported higher levels of math 
anxiety and lower self-efficacy in solving specific math tasks. Similarly, in 
a representative large-scale assessment with ninth-grade students in Ger- 
many, Jansen and Stanat (2015) found no differences between students with 
and without a migration background in their math self-concept, but stu- 
dents with a migration background reported higher math interest. Finally, 
a study with seventh-grade students in Switzerland (Brandenberger et al., 
2017) showed that students with a migration background reported higher 
intrinsic motivation and enjoyment in mathematics along with higher anxi- 
ety and no differences in self-concept. 
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1.2. Prior Research on Relevance Interventions 


In recent years, researchers have developed targeted interventions grounded 
in SEVT to promote students’ motivation and help at-risk students. Such 
interventions have focused on utility value because it is assumed to be more 
extrinsic in nature (Eccles & Wigfield, 2020) and should thus be easier to 
affect through external interventions than the other components (Gaspard, 
Dicke, Flunger, Brisson, et al., 2015; Hulleman et al., 2010). Even though the 
main target of these interventions is utility value, broader effects can also 
occur, including effects on intrinsic and attainment value (Gaspard, Dicke, 
Flunger, Brisson, et al., 2015; Hulleman et al., 2010). Therefore, we use the term 
relevance intervention to denote that these interventions relyon mechanisms 
that go beyond utility value by targeting relevance as “a personally meaningful 
connection to the individual” (Priniski et al., 2018, p. 12) more broadly. 

Heterogeneity in the effects of relevance interventions has been found 
to depend on students’ characteristics. Most studies have found that these 
interventions work best for students who are traditionally underrepresented 
in a particular educational context. Concerning gender as a moderator, the 
effects of a relevance intervention in fifth and sixth grade science classrooms 
on utility value, appreciation, and science-related career intentions were 
found to be larger for girls than boys (Shin et al., 2022). Similarly, in the first 
test of the MoMa intervention in mathematics in secondary school, Gaspard, 
Dicke, Flunger, Brisson, et al. (2015) found that female adolescents benefit- 
ted more from the intervention with respect to their values than male ado- 
lescents. In a parent-based intervention aimed at increasing the perceived 
relevance of mathematics and science for high school students, the interven- 
tion was most effective in increasing STEM course-taking for high-achiev- 
ing girls and low-achieving boys, whereas it did not help low-achieving girls 
(Rozek et al., 2015). 

For family background, findings have also suggested that at-risk students 
benefit the most from these interventions. In the first MoMa study, Hafner 
et al. (2017) investigated several family background variables as potential 
moderators and showed that students from families with lower motivational 
resources (e. g., lower family interest in mathematics) benefitted more from 
the intervention than students from other families. Parental education and 
migration background did not moderate the intervention effects in their 
study. However, in a similar study that was also conducted in ninth-grade 
math classrooms, Weidinger et al. (2022) found that the effects of a rele- 
vance intervention on attainment value were especially pronounced for aca- 
demic track students with migration background whose parents did not hold 
a university entrance certificate. Similarly, in a study of college students, 
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Harackiewicz et al. (2016) reported that underrepresented minority stu- 
dents whose parents did not attend college showed the largest intervention 
effects on course grades such that the achievement gap relative to continu- 
ing generation majority students was substantially reduced. Finally, in the 
parent-based relevance intervention targeting mathematics and science at 
high school described above, the effects did not vary depending on parents’ 
educational background (Harackiewicz et al., 2012). 

So far, there is limited research exploring the potential mechanisms for 
why different student characteristics moderate the effects of relevance inter- 
ventions. Beyond lower initial motivation and achievement, female students, 
students with low parental education, and students with a migration back- 
ground might bring more specific characteristics leading them to reap larger 
benefits from such interventions. Female students often aspire to careers 
that are not typically associated with mathematics (e. g., social careers) and 
they might lack role models in math-related careers (Lauermann et al., 2015; 
Stout et al., 2011). Moreover, research has shown that female students, stu- 
dents with low parental education, and ethnic minority students are more 
likely to pursue communal and interdependent goals in educational con- 
texts, which are typically perceived to be less pronounced in STEM fields 
compared with other domains (Diekman et al., 2010; Harackiewicz et al., 
2016; Stephens et al., 2012). Students from families with a low parental edu- 
cation and/or migration background might also talk less often with their 
parents about the relevance of mathematics because they have less access to 
this information (e. g., because of their lack of familiarity with the educa- 
tional system). Finally, female students, students with low parental educa- 
tion, and students with a migration background might respond differently to 
the intervention materials (e. g., show higher engagement in writing), which 
could then explain why they benefit more from them (Harackiewicz et al., 
2016; Nagengast et al., 2018). 


1.3. MoMa Project: Testing Relevance Interventions in Math 
Classrooms 


In this study, we focus on the MoMa intervention, which is a classroom-based 
relevance intervention designed for ninth-grade academic track students in 
Germany. This particular age group was chosen because students of this 
age group typically report low levels of math utility value (Gaspard et al., 
2017; Harackiewicz et al., 2010) and - at the same time - should be able to 
reflect upon the relevance of mathematics for their future lives. The 90-min 
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intervention consists ofa psychoeducational presentation for the whole class 
and relevance-inducing reflection tasks for the individual students (for more 
details, see Brisson et al., 2017; Gaspard et al., 2021; Gaspard, Dicke, Flunger, 
Brisson, et al., 2015). The psychoeducational presentation consists of two 
main parts. First, information about the importance of effort for achieve- 
ment in mathematics and research results on students’ self-concept of ability 
are presented. This part targets students’ growth mindsets (i. e., their beliefs 
that one’s skills are malleable and can be improved through effort; Dweck & 
Leggett, 1988) and their expectancies in order to avoid potential threatening 
effects of relevance information for struggling students. Second, the pre- 
sentation includes various examples of the utility of mathematics for future 
education, career opportunities in different fields, and leisure time activities. 
This part thus directly communicates the usefulness of mathematics in dif- 
ferent domains and is meant to prepare students for the relevance-inducing 
tasks. Finally, students work on the relevance-inducing tasks, in which they 
are asked to reflect on the personal relevance of mathematics for their lives 
to personalize and internalize the previously presented content. 

In a first randomized controlled trial testing the MoMa intervention 
(Brisson et al., 2017; Gaspard, Dicke, Flunger, Brisson, et al., 2015), the inter- 
vention was implemented by researchers in the classroom. Two reflection 
tasks were tested in this study: Students were either asked to write an essay 
about the relevance of mathematics or they were presented with written 
quotations from interviews with young adults related to the relevance of 
mathematics and were asked to evaluate those with respect to their personal 
relevance. The intervention was shown to have positive effects on students’ 
values, expectancies, teacher-rated effort, and achievement in mathematics 
compared with a waitlist control condition, with the quotations condition 
showing more extensive effects compared with the essay condition. The 
intervention was furthermore found to work better for students at risk for 
low motivation in this context: girls and students from families with low 
interest in mathematics (Gaspard, Dicke, Flunger, Brisson, et al., 2015; Häf- 
ner et al., 2017). The larger intervention effects for girls could potentially be 
explained by role model effects because the intervention was delivered solely 
by female researchers in this study. 

In a follow-up study (MoMa 2) testing the effectiveness of this interven- 
tion under conditions that are closer to educational practice, an optimized 
version of this intervention including the quotations task was implemented 
by either trained master’s students or the regular math teacher (Gaspard et 
al., 2021). Although positive effects of both intervention conditions were 
again found on utility value, the effects were smaller compared with the first 
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study. In the master’s students condition, additional effects were observed 
for the importance of effort and talent for math achievement and a stan- 
dardized math test. Unexpectedly, students in both intervention conditions 
also reported higher perceived cost compared with students in the control 
condition after the intervention. Overall, the pattern of effects was thus 
rather mixed. Gaspard et al. (2021) investigated students’ expectancies as 
a moderating variable but did not find any consistent moderating effects. 
It therefore remains unknown whether any differences in the effects of the 
intervention depended on other student characteristics (e. g., gender or fam- 
ily background). 


1.4. Research Questions 


In this study, we used data from the large MoMa 2 study, in which the effec- 
tiveness of a relevance intervention was tested in a cluster-randomized trial 
with a total of 78 classrooms. Because of the large sample size (N = 1,744), 
the data are well-suited to investigate whether heterogeneity in the interven- 
tion effects depended on student characteristics. We examined the following 
research questions: 


1) How do students’ motivation and achievement in this context vary 
by gender, parental education, and migration background? We 
expected female students and students with a relatively low level 
of parental education to report lower motivation compared with 
male students and students with a relatively high level of parental 
education. On the basis of prior research, we expected students with 
a migration background to report higher positive value beliefs, but 
expected them to show no differences or lower levels with respect to 
their expectancies and to report higher cost compared with students 
without migration background. 

2) Do the effects of the intervention differ by students’ gender, parental 
education, or migration background? If any moderator effects could 
be found, we expected larger intervention effects for students at risk 
for low motivation. 
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2. Method 
2.1. Sample and Procedure 


Data for the MoMa 2 study were collected in 78 ninth-grade classrooms out 
of 28 academic track schools in Baden-Württemberg from October 2017 to 
March 2018 (for more details on the study design, see Gaspard et al., 2021). 
The sample size was determined by a power analysis for a multisite clus- 
ter-randomized trial. Within each school, the participating classrooms were 
randomly assigned to three conditions: (a) intervention implemented by a 
master’s student, (b) intervention implemented by the regular math teacher, 
or (c) waitlist control condition. Out of the 70 teachers, eight teachers par- 
ticipated with two classes each. To reduce the risk of diffusion effects, the 
randomization was based on the math teachers so that classes taught by the 
same teacher were assigned to the same condition. This randomization proce- 
dure resulted in 28 classes in the master’s student condition, 25 in the teacher 
condition, and 25 in the waitlist control condition. 

The Ethics Committee for Psychological Research at the University of 
Tübingen confirmed that the procedures were in line with ethical standards 
for research with human subjects. Student participation was voluntary and 
not incentivized, and parents and students had to provide written consent. 
Overall, 1,744 students participated in the study, corresponding to an 88.7 % 
participation rate (n = 629 in the master’s student condition, n = 569 in the 
teacher condition, n = 546 in the waitlist control condition). Students’ mean 
age was 14.63 years (SD = 0.48) at the beginning of the study. Overall, 53.8 % 
of the students were female, with a somewhat higher proportion of female 
students in the waitlist control condition (59.0 %) compared with the mas- 
ter’s student (51.4 %) and teacher conditions (51.7 %). Furthermore, 31.7 % 
of the students had a migration background (i.e., the student or at least one 
parent was not born in Germany), and 72.9 % had at least one parent who 
obtained a general university entrance qualification. These proportions did 
not vary substantially between the experimental conditions (see Supplemen- 
tal Materials). For migration background and parents’ level of education, 
our sample was approximately representative of academic track students in 
Baden-Württemberg (Stanat et al., 2019; Statistisches Bundesamt [Destatis], 
2018). 

The study consisted of three waves of data collection. Students were 
administered questionnaires by trained research assistants before the inter- 
vention in October 2017 (pretest = T1), an average of 4 weeks (14-40 days) 
after the intervention in December 2017 (posttest = T2), and an average 
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of 3 months (11-17 weeks) after the intervention in February 2018 (fol- 
low-up = T3). Teachers were asked to rate their students’ effort at the same 
time points. 


2.2. Relevance Intervention 


As described previously, the intervention was a 90-min lesson, which consisted 
of an instructor-led psychoeducational presentation for the whole classroom 
(~45 min) and a relevance-inducing task that the students worked on indi- 
vidually (~40 min; for more information, see Gaspard et al., 2021). In the 
individual task, the students were asked to read and evaluate six quotations 
from interviews with young adults describing situations in which mathematics 
was useful to them. 

The master’s students and teachers who implemented the intervention 
in the classroom received all the intervention materials from the research 
team, and these materials did not differ between conditions (for more infor- 
mation about training in both conditions, see Gaspard et al., 2021). A total 
of six master’s students (five women and one man; age M = 24.7, SD = 1.5) 
delivered the intervention in the master’s student condition (four to five 
classes per student). They were trained for this purpose as part of a two-se- 
mester class on motivation interventions in the master’s program Educa- 
tion Sciences and Psychology at the University of Tübingen. The teachers 
(n = 24; 45.8% women; age: M = 40.2, SD = 9.8; years of teaching experience: 
M = 11.8, SD = 8.9) assigned to the teacher condition were asked to partici- 
pate in a 3-hr workshop in small groups to prepare to implement the inter- 
vention. One teacher in this condition declined to participate in the work- 
shop and thus did not deliver the intervention in the classroom. We followed 
the intention-to-treat approach in our analyses and included this class in the 
teacher condition so that the random assignment remained intact (Sagarin 
et al., 2014). 


2.3. Instruments 


We investigated the same set of outcomes as Gaspard et al. (2021), except for 
a math test that had a large proportion of missing data. Students reported 
on their motivation in mathematics using the same set of items at pretest, 
posttest, and (to some extent) the follow-up. All items were rated on a Likert 
scale ranging from 1 (completely disagree) to 4 (completely agree). Sample 
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items and Cronbach’s alpha for all rating scales are provided in Table 1 (see 
Supplemental Materials for the full set ofitems). Reliabilities were shown to be 
sufficient across experimental conditions, gender, parental education status, 
and migration background status (see Supplemental Materials). 


Table 1: Sample Items and Reliabilities for Scales in All Waves of Measurement. 


Scale Sample item #items Arı Ars Ars 
Utility value Math is very useful to me. 12 .88 .89 .89 
Attainment value tis important to me to be good at math. 6 .87 88 .88 
Intrinsic value Math is fun to me. 3 -93 .93 -93 
Cost Doing math makes me really nervous. 9 .91 .93 .93 
Importance of effort believe that working diligently is the most important 

thing in math. 4 .80 .84 - 
Importance of talent o be good at math, you need to have a talent for it. 3 .80 .83 - 
Self-concept am good at math. 4 -91 ‚91 .89 
Self-efficacy am convinced that | can achieve good results on math 

homework and tests. 4 .85 .90 .88 
Effort do my best on math tasks. 3 AT .84 .83 
Teacher-rated effort his student works thoroughly on all of his/her math 

tasks and homework assignments. 2 5. .80 .80 


Students’ values were measured with a scale that allows for differentiation 
across not only the four value components but also several subfacets of util- 
ity value, attainment value, and cost (Gaspard, Dicke, Flunger, Schreier, et 
al., 2015). In this study, we focused on the major value components (for the 
effects of the intervention on the subscales, see Gaspard et al., 2021). Stu- 
dents’ mindsets were assessed at pretest and posttest only. Students separately 
rated the importance of effort and the importance of talent for math achieve- 
ment. Students’ expectancies were measured with scales indicating students’ 
self-concept and their self-efficacy in mathematics. Finally, students reported 
their effort in mathematics. Teachers rated individual students’ math effort 
on two items using a Likert scale ranging from 1 (completely disagree) to 4 
(completely agree). 

Information on students’ previous math grades was collected from school 
records (ranging from 1 = very good to 6 = insufficient). At the pretest and 
the follow-up, students worked on a 3 min 30 s normed speed test that mea- 
sured their fluency in solving typical math operations with 50 questions. 
The sum score was used in the analyses. This speed test is part of the German 
mathematics test for Grade 9 (Schmidt et al., 2013). Validity studies showed 
that it is a very good proxy for students’ achievement in longer assessments 
using standardized, curriculum-based math tests. The internal consistency 
was good at both time points (Kuder-Richardson 20 = .88). 
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Information about students’ gender was provided by the schools. Students 
reported information about their family background. To assess parents’ level 
of education, students were asked to report the highest secondary school 
leaving certificate that their parents had obtained. Parents’ secondary school 
leaving certificates were then coded on the basis of whether they allowed for 
university entrance. We then combined mothers’ and fathers’ data into one 
variable indicating whether students had at least one parent with a general 
university entrance qualification (7.9% missing data). Students were also 
asked about the country in which they and their parents were born. They 
were assigned a migration background if the student or at least one of their 
parents was not born in Germany (3.8 % missing data). No further informa- 
tion about the parents, such as their beliefs and behaviors, were available in 
the data. 


2.4. Analyses 


Allanalyses were conducted in Mplus 8.7 (Muthen & Muthen, 1998-2017). To 
deal with missing data, we used the full information maximum likelihood 
approach, which takes all available information into account. All continuous 
variables were standardized before running the analyses so that the regression 
coefficients presented here can be understood as effect sizes with respect to 
the total variance of the outcome variable. To deal with multiple testing, we 
applied Benjamini and Hochberg’s (1995) procedure to control for a false 
discovery rate of .05. 

To investigate whether mean-level differences in motivation and achieve- 
ment depended on gender, parental education, and migration background 
prior to the intervention (Research Question 1), we conducted separate 
analyses for each indicator and student characteristic in which we regressed 
the respective indicator (e. g., utility value) on the respective student char- 
acteristic (e. g., gender) coded as a dummy variable. In these analyses, we 
accounted for the nesting of students within classrooms and schools using 
the design-based correction of standard errors implemented in Mplus (with 
type = complex). 

To examine whether intervention effects were moderated by gender, 
parental education, or migration background (Research Question 2), we 
conducted two-level regression analyses that were based on the prereg- 
istered analyses for testing main effects reported by Gaspard et al. (2021). 
These analyses considered students at Level 1 and classrooms at Level 2 and 
additionally accounted for the nesting of classrooms within schools using 
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the design-based correction of standard errors. Each outcome variable was 
regressed on two dummy variables indicating the two intervention con- 
ditions as compared with the control condition at the classroom level. To 
increase the precision of the estimated intervention effects, we additionally 
included the pretest score of the respective outcome variable as a predic- 
tor at the student and classroom levels. In addition, we included as covari- 
ates any variables for which substantial differences were found between 
the experimental conditions before the intervention (ô > 0.05; Gaspard et 
al., 2021; What Works Clearinghouse, 2020). We therefore included prior 
grades, intrinsic value, cost, self-concept, self-efficacy, effort, achievement 
score, and teacher-rated effort as covariates at both levels. We added our 
student characteristics of interest (i.e. gender, parental education, migra- 
tion background) as predictors on both levels. To test for moderator effects, 
we additionally included two cross-level interactions between the respective 
student characteristics and the two intervention conditions. The moderating 
effects of the different student characteristics were tested in separate models. 
To keep the models as parallel as possible, all three student characteristics 
were included as covariates in all models. The effects of the covariates at 
both levels were freely estimated to account for contextual effects (Marsh 
et al., 2009). The covariates at the student level were group-mean-centered, 
and manifest aggregation was used for the class-level predictors (Marsh et 
al., 2009). To examine whether the study was sufficiently powered to detect 
such moderator effects, we estimated minimum detectable effect size differ- 
ences (MDESDs) based on the empirical data in MoMa 2. Our power anal- 
yses showed that the MDESDs for all three binary moderator (i.e., gender, 
parental education, and migration background) and all outcome variables 
varied between 0.176 and 0.273, with an average of 0.225 (see Supplemental 
Materials for more details). 


3. Results 

3.1. Descriptive Statistics 

Descriptive statistics (n, M, SD) of all study variables depending on the exper- 
imental conditions and demographic student characteristics in the different 


waves of measurement as well as the correlations between all variables can 
be found in the Supplemental Materials. 
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3.2. Mean-Level Differences in Motivation and Achievement 
Depending on Gender, Parental Educational, and Migration 
Background Prior to the Intervention 


To address Research Question 1, we first tested for whether mean-level differ- 
ences inmotivation and achievement depended on students’ gender, parental 
education, and migration background prior to the intervention. With respect 
to gender (see Table 2), we found that girls reported lower utility and intrinsic 
value, higher cost, and lower self-concept and self-efficacy than boys. No 
differences were found for students’ mindsets. Girls reported greater effort 
and were also rated as showing greater effort by their teachers. No significant 
differences were found for achievement. The effects were small to moderate 
in size, with the largest differences found for teacher-rated effort and self- 
efficacy. 


Table 2: Mean-Level Differences in Motivation and Achievement Depending on 
Gender. 


Boys Girls 

Variable M SD M SD b SE p 

Utility value 2.88 0:53 2.80 0.47 -0.15 * 0.06 .007 
Attainment value 2.89 0.62 2.86 0.59 -0.05 0.06 ‚376 
Intrinsic value 2.54 0.85 2.41 0.87 -0.15 * 0.06 .010 
Cost 2.07 0.67 2.17 0.70 0.15 * 0.06 .010 
Self-concept 2.93 0.71 2.65 0.79 -0.36 * 0.06 <.001 
Self-efficacy 2.91 0.58 2.65 0.63 -0.42 * 0.06 <.001 
Importance of effort 2.86 0.69 2.81 0.62 -0.09 0.05 .109 
Importance of talent 2.22 0.72 2.26 0.71 0.06 0.06 .334 
Effort 3.19 0.60 3.37 0.55 0.30 * 0.06 <.001 
Teacher-rated effort 2.82 0.80 3.19 0.73 0.47 * 0.06 <.001 
Test score 29.41 8.00 28.71 7.45 -0.09 0.05 .090 


Note. Regression coefficients can be interpreted like Cohen’s d. 
*significant after correcting for a false discovery rate of .05. 


Concerning parental education, we found only a few significant differences 
(see Table 3). Students whose parents held a university entrance qualification 
reported higher utility value and self-efficacy than students whose parents 
had no such qualification. There was also a tendency for the same pattern 
of differences for self-concept and test scores, but these differences were not 
significant after applying the Benjamini-Hochberg correction. 
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Table 3: Mean-Level Differences in Motivation and Achievement Depending on 
Parental Education. 


No university University 
entrance entrance 

qualification qualification 
Variable M SD M SD b SE p 
Utility value 2.79 0.50 2.86 0.50 0.13 * 0.05 .009 
Attainment value 2.87 0.60 2.88 0.60 0.02 0.05 182 
Intrinsic value 2.42 0.86 2.50 0.85 0.10 0.07 .147 
Cost 2.18 0.70 2.09 0.68 -0.12 0.07 .070 
Self-concept 2.70 0.74 2.82 0.77 0.16 0.07 .019 
Self-efficacy 2.67 0.61 2.81 0.63 0.22 * 0.06 .001 
Importance of effort 2.81 0.64 2.84 0.66 0.04 0.06 439 
Importance of talent 2.29 0.73 2.23 0.70 -0.08 0.06 155 
Effort 3.29 0.56 3.30 0.58 0.02 0.05 168 
Teacher-rated effort 2:97 0.79 3.05 0.78 0.10 0.07 .137 
Test score 28.35 7.41 29.39 1-10 0.14 0.06 .020 


Note. Regression coefficients can be interpreted like Cohen’s d. 
* significant after correcting for a false discovery rate of .05. 


With respect to migration background, we found that students with migra- 
tion background reported higher attainment value but also higher cost, lower 
self-concept, and lower self-efficacy compared with students without migra- 
tion background. Moreover, students with migration background rated the 
importance of effort as higher and were rated as showing lower effort com- 
pared with students without migration background. No significant differences 
were found for the other variables, including achievement. 


Table 4: Mean-Level Differences in Motivation and Achievement Depending on 
Migration Background. 


No migration Migration 

background background 
Variable M SD M SD b SE p 
Utility value 2.84 0.50 2.83 0.52 0.00 0.05 .984 
Attainment value 2.85 0.60 2.92 0.61 0.13 + 0.05 .017 
Intrinsic value 2.49 0.87 2.45 0.85 -0.05 0.05 ‚384 
Cost 2.09 0.68 2.21 0.70 0.18 + 0.06 .002 
Self-concept 2.83 0.77 2.67 0.75 -0.21 + 0.05 <.001 
Self-efficacy 2.80 0.62 2.69 0.63 -0.17 * 0.05 <.001 
Importance of effort 2.80 0.65 2.91 0.67 0.15 * 0.06 .005 
Importance of talent 2.27 0.70 2.20 0.74 -0.10 0.06 .085 
Effort 3.28 0.57 3.29 0.61 0.01 0.06 .888 
Teacher-rated effort 3.07 0.78 2.93 0.78 -0.18 s 0.06 .004 
Test score 29.15 7.75 29.02 7.52 -0.02 0.06 164 


Note. Regression coefficients can be interpreted like Cohen’s d. 
* significant after correcting for a false discovery rate of .05. 


277 


3.3. Gender, Parental Educational, and Migration Background as 
Moderators of the Intervention Effects 


To address Research Question 2, we tested whether the effects of the two 
intervention conditions (as compared with the waitlist control condition) were 
moderated by students’ gender, parental education, and migration background 
(see Tables 5-7). We report only the regression coefficients ofthe intervention 
conditions and the cross-level interaction terms in the tables. When inter- 
preting the effects of the intervention conditions, it needs to be noted that 
these refer to the group of students coded as zero on the moderator variable 
(i. e., male students, students with low parental education, or students without 
migration background). The full models with all predictors at the student 
and classroom levels can be found in the Online Supplemental Materials. In 
summary, after we applied the Benjamini-Hochberg correction, no significant 
interaction terms were found in any ofthe models. Still, we describe the inter- 
action terms with (uncorrected) p < .10 to provide a clearer understanding of 
the potential pattern of results across models. 

Concerning gender, there was a negative interaction with the teacher 
condition for intrinsic value at follow-up (b = -0.17, p = .024), resulting in 
a negative effect of the teacher condition for girls (b = -0.15, p = .026) but 
a nonsignificant effect for boys (b = 0.02, p = .775). Intervention effects of 
importance of effort in the master’s student condition tended to be larger 
for girls (b = 0.16, p = .052), resulting in significant positive effects for girls 
(b = 0.23, p < .001) but not for boys (b = 0.07, p = .310). There was also a ten- 
dency toward a negative interaction with the teacher condition for impor- 
tance of talent (b = -0.17, p = .96), although the subgroup-specific inter- 
vention effects were nonsignificant for girls (b = -0.08, p = .308) and boys 
(b = 0.10, p = .222). Finally, there was a tendency toward a negative interac- 
tion with the master’s student condition for teacher-rated effort at posttest 
(b = -0.17, p = .085) so that the effect of this condition tended to be positive 
for boys (b = 0.14, p = .064) but not for girls (b = -0.03, p = .636). 
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Table 5: Interactions Between Gender and the Two Intervention Conditions for the 


Different Outcomes Assessed at Posttest and Follow-Up. 


Utility value Attainment value Intrinsic value Cost 
Time & Interaction b SE p b SE p b SE p b SE p 
Posttest 
Master's student 
a 0.08 0.08 .318 0.05 0.008 .543 -0.02 0.08 .771 015 0.06 .013 
condition 
Teacher condition 0.17 0.09 .067 0.06 0.08 .446 0.00 0.08 .969 0.14 0.08 .075 
Gender x Masters 011 011 .316 -0.03 0.09 .772 -0.10 0.08 .206 -0.08 0.08 .333 
student 
Gender x Teacher 0.00 0.13 .997 -0.04 0.09 .658 -0.05 0.08 .491 0.05 0.09 .567 
Follow-Up 
Master’s student 
ER 0.10 0.08 .218 -0.01 0.08 .890 -0.08 0.07 .306 0.13 0.06 .032 
condition 
Teacher condition 0.12 0.08 110 0.03 0.07 .674 0.02 0.7 .75 0.08 0.6 .181 
Gender x Nesters -0.01 0.11 .926 -0.03 0.09 .779 -0.06 0.08 .465 -0.03 0.08 .690 
student 
Gender x Teacher -0.06 0.10 .560 -0.08 0.08 .310 -0.17 0.08 .024 0.05 0.08 .512 
Self-concept Self-efficacy Imp. of effort Imp. oftalent 
b SE p b SE p b SE p b SE p 
Posttest 
Master's student 
Ba 0.01 0.05 .845 -0.10 0.10 .612 0.07 0.07 .310 -0.04 0.08 .622 
condition 
Teacher condition 0.07 0.06 .248 -0.06 0.11 .866 0.16 0.09 .082 0.10 0.08 .222 
GenderxMasters 003 0.06 .555 0.05 0.10 .612 0.16 0.08 .052 -0.13 0.09 .154 
student 
Gender x Teacher 0.00 0.09 .958 0.02 0.11 .866 -0.04 0.11 .731 -0.17 0.10 .096 
Follow-Up 
Master's student 0.05 0.07 .496 -0.01 0.07 .929 
condition 
Teacher condition 0.03 0.08 .709 -0.06 0.07 .426 
GenderxMasters 08 0.08 .316 -0.06 O11 .615 
student 
Gender x Teacher -0.11 0.09 .214 -0.03 0.10 .744 
Effort Teacher-rated effort Achievement 
b SE p b SE p b SE p 
Posttest 
Master's Student 0.12 0.10 .226 0.14 0.07 .064 
condition 
Teacher condition 0.11 010 .236 0.09 0.07 .169 
S MasierS 0.08 0.10 .421 -0.17 0.10 .085 
student 
Gender x Teacher 0.16 0.10 .111 0.01 0.09 .942 
Follow-Up 
Man TGE -0.07 0.08 .381 0.04 0.08 .603 0.08 0.08 .275 
condition 
Teacher condition -0.20 0.08 .012 -0.09 0.08 .246 0.10 0.09 .243 
Be ele cil 0.01 0.08 .937 -0.13 0.10 .217 0.05 0.08 .542 
student 
Gender x Teacher 0.12 0.08 .130 0.12 0.10 .214 -0.03 0.08 .704 


Note. Imp. = Importance. Gender was coded O = male, 1 = female. 
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There were no interaction terms significant at p < .10 for parental education. 
Concerning migration background, there was a tendency toward a negative 
interaction with the teacher condition for self-concept at posttest (b = -0.15, 
p = .058), resulting in a marginally significant negative intervention effect 
for students with a migration background (b = -0.17, p = .053) that could 
not be observed for students without a migration background (b = -0.03, 
p = .662). With respect to achievement as an outcome, interactions with both 
the master’s student and teacher conditions tended to be positive (b = 0.14, 
p = .065, and b = 0.13, p = .088), so that positive intervention effects could 
be observed for students with migration background (b = 0.21, p = .013, and 
b = 0.18, p = .037) but not for students without migration background (b = 0.07, 
p = .254, and b = 0.05, p = .464). 
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Table 6: Interactions Between Parental Education and the Two Intervention Conditions 
for the Different Outcomes Assessed at Posttest and Follow-Up. 


Utility value Attainment value Intrinsic value Cost 
ime & Interaction b SE p b SE p b SE p b SE p 
Posttest 
Master s'student 0.15 0.10 .145 0.06 0.08 .467 -0.09 0.08 .294 0.04 0.04 .542 
condition 
eacher condition 0.18 0.10 .061 0.02 0.09 .868 -0.02 0.09 .867 012 012 .158 
5 N 
ar. Educ. x Master's 404, 0.10 .961 -0.04 0.08 .604 0.01 0.08 .915 0.10 0.08 .215 
student 
Par. Educ.xTeacher -0.01 0.10 .936 0.04 0.10 .715 -0.02 0.08 .754 0.06 0.09 .542 
Follow-Up 
Master s student 0.15 0.09 .091 -0.01 0.09 .880 -0.19 0.06 .002 0.41 0.07 .105 
condition 
eacher condition 0.15 0.09 .078 -0.02 0.09 .830 -0.15 0.07 .043 0.13 0.06 .035 
4 ; 
ar. Educ. x Master's 467 0.10 .439 -0.02 0.09 .812 0.11 0.07 .115 0.01 0.08 .912 
student 
Par.Educ.xTeacher -0.10 0.10 .345 0.01 0.09 .932 0.11 0.09 .232 -0.04 0.07 .604 
Self-concept Self-efficacy Imp. of effort Imp. of talent 


b SE p 


b SE p 


b SE p 


Posttest 
Master's student 

ve 0.01 0.07 .866 -0.01 0.08 .922 0.12 0.09 .177 0.14 0.10 .141 
condition 
Teacher condition -0.02 0.08 .791 -0.01 0.009 .884 0.07 0.10 .451 0.10 0.09 .272 
Par. Educ.xMaster’s 09 0.07 721 -0.09 0.08 .263 0.06 010 .521 0.04 0.11 .740 
student 
Par. Educ.x Teacher -0.08 0.08 .314 -0.05 0.08 .497 011 011 .303 014 0.11 .173 
Follow-Up 
Masters student 0.01 0.08 .920 -0.05 0.08 .498 
condition 
Teacher condition 0.07 0.08 .384 -0.12 0.09 .148 
Par. Educ. x Master's 405 0.08 .851 0.02 0.09 .822 
student 
Par. Educ. x Teacher 0.04 0.08 .576 0.07 0.09 .409 

Effort Teacher-rated effort Achievement 


b SE p 


b SE p 


Posttest 


Master’s student 
condition 


Teacher condition 


Par. Educ. x Master’s 
student 


Par. Educ. x Teacher 
Follow-Up 


Master’s student 
condition 


Teacher condition 


Par. Educ. x Master's 
student 


Par. Educ. x Teacher 


0.03 0.09 .738 
0.03 0.10 .770 
0.06 0.10 .590 
0.01 0.12 .927 
-0.04 0.10 .716 
0.05 0.09 .572 
-0.03 0.09 .718 
-0.12 0.11 .283 


0.02 0.08 .811 
0.04 0.07 .530 
0.04 0.08 .635 
0.06 0.09 .455 
-0.02 0.09 .793 
-0.06 0.08 .471 
0.00 0.10 .989 
0.05 0.09 .568 


0.16 0.08 .049 
0.17 0.09 .044 
-0.07 0.07 .305 
-0.13 0.09 .140 


Note. Par. Educ. = Parental Education; Imp. = Importance. Parental education was coded O = no univer- 
sity entrance qualification, 1 = university entrance qualification. 
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Table 7: Interactions Between Migration Background and the Two Intervention 
Conditions for the Different Outcomes Assessed at Posttest and Follow-Up. 


Utility value Attainment value Intrinsic value Cost 
Time & Interaction b SE p b SE p b SE p b SE p 
Posttest 
Master's student 0.16 0.07 .028 0.02 0.06 .672 -0.10 0.06 .093 0.13 0.05 .015 
condition 
Teacher condition 0.21 0.07 .001 0.05 0.05 .363 -0.05 0.07 .486 0.13 0.06 .036 
Mig. Back. x Masters os 011 .648 0.02 0.10 .814 0.07 0.09 .414 -0.05 0.08 .528 
student 
Mig. Back. x Teacher -0.13 0.12 .252 -0.03 0.10 .772 0.05 0.09 .533 0.08 0.09 .378 
Follow-Up 
Master's student 
“= 0.06 0.08 .460 -0.05 0.07 .475 -0.12 0.06 .049 0.10 0.05 .043 
condition 
Teacher condition 0.08 0.06 .177 -0.01 0.07 .843 -0.08 0.06 .132 0.12 0.05 .008 
Mig. Back. x Masters 94, 011 .214 0.07 0.11 .529 0.05 0.05 .652 0.03 0.09 .728 
student 
Mig.Back.xTeacher 0.05 0.13 .702 0.00 012 .989 0.04 0.04 .636 -0.04 0.10 .675 
Self-concept Self-efficacy Imp. of effort Imp. of talent 


b SE p 


b SE p 


b SE p 


Posttest 
Master’s student 

RR 0.01 0.05 .878 -0.09 0.05 .863 0.14 0.06 .019 -0.15 0.05 .004 
condition 
Teacher condition 0.03 0.06 .662 -0.04 0.05 .052 0.14 0.08 .065 -0.02 0.05 .648 
Mig. Back. x Master's 497 0.07 .321 0.07 0.09 .424 0.06 0.11 .563 0.14 013 .295 
student 
Mig. Back. x Teacher 0.15 0.08 .058 -0.02 0.08 .791 0.04 0.10 .715 0.08 0.13 .567 
Follow-Up 
Masters student 0.01 0.05 .834 -0.01 0.05 .863 
condition 
Teacher condition -0.05 0.05 .319 -0.11 0.05 .052 
Mig: Back: X Master's. -00 9453 645 -0.10 0.09 .312 
student 4 
Mig. Back. x Teacher 0.04 0.10 .709 0.09 0.09 .294 

Effort Teacher-rated effort Achievement 


b SE p 


b SE p 


Posttest 


Master's student 
condition 


Teacher condition 


Mig. Back. x Master’s 
student 


Mig. Back. x Teacher 
Follow-Up 


Master's student 
condition 


Teacher condition 


Mig. Back. x Master’s 
student 


Mig. Back. x Teacher 


0.07 0.08 .392 
0.00 0.08 .959 
-0.01 0.10 .906 
-0.09 0.10 -389 
-0.08 0.08 .292 
-0.09 0.07 .230 
0.08 0.12 .504 
-0.15 0.11 .154 


0.04 0.05 .500 
0.06 0.06 .303 
0.03 0.09 .751 
0.09 0.10 .384 
0.06 0.06 .359 
0.06 0.05 .272 
0.10 0.10 .275 
0.10 0.09 .252 


0.07 0.06 .254 
0.05 0.06 .464 
0.14 0.08 .065 
0.13 0.08 .088 


Note. Mig. Back. = Migration Background; Imp. = Importance 
0 = no migration background, 1 = migration background. 
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. Migration background was coded 


4. Discussion 


Based on data from a large cluster-randomized trial that tested the effective- 
ness ofa relevance intervention in ninth-grade math classrooms, we investi- 
gated whether heterogeneity in the results depended on students’ demographic 
characteristics in their mean levels of motivation and achievement prior to the 
intervention and in the effects ofthe intervention on motivation and achieve- 
ment. We found small to moderate differences in motivation and achievement 
that depended on students’ gender, parental education, and migration back- 
ground, indicating that female students, students with low levels of parental 
education, and students with migration background indeed constitute at-risk 
groups in this context. However, there was little evidence that the interven- 
tion effects were moderated through these demographic characteristics. We 
discuss these findings and their implications in more depth in the following. 


4.1. Heterogeneity in Students’ Mean Levels of Motivation and 
Achievement 


Altogether, the preintervention motivation and achievement differences 
that depend on student characteristics were in line with previous research. 
With respect to gender, prior studies that examined gender differences in 
students’ expectancies and values in German adolescents found similar pat- 
terns with more pronounced and consistent differences in students’ expectan- 
cies (favoring boys) than in students’ values (Gaspard et al., 2022; Gaspard, 
Dicke, Flunger, Schreier, et al., 2015; Marsh et al., 2005). Notably, there were 
no significant gender differences in test scores in our study so that gender 
differences in expectancies and values could not be explained by differences 
in achievement. However, girls showed higher self-reported and teacher-rated 
effort. The stereotypical picture of the “good girl” might actually undermine 
girls’ perceived competence as they themselves and their socializers attribute 
their achievement successes to effort rather than to talent (Brandmiller et al., 
2020; Tiedemann, 2000). 

Concerning parental education, we found only a few, small differences, 
although the pattern was consistent in favoring students with a high level of 
parental education. This finding is in line with prior studies showing small 
differences in a similar context (Hafner et al., 2017). The fact that we did not 
find more pronounced differences in students’ motivation and achievement 
might also be due to limited variation in our measure of parental education 
in this context. More than 70% of the students had at least one parent who 
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had obtained a university entrance qualification. Information about tertiary 
education was not available. Future studies might consider using more con- 
tinuous measures of parental education that also include tertiary education 
(Svoboda et al., 2016). 

Finally, students with migration background reported higher attainment 
value along with higher cost and lower expectancies compared with students 
without migration background, whereas we did not observe differences in 
objective performance. This pattern is somewhat similar to the results of 
other studies that showed that students with migration background reported 
higher values and intrinsic motivation but also higher anxiety (Branden- 
berger et al., 2017; Stanat & Christensen, 2006). In fact, the combination of 
high values along with rather low expectancies might undermine students’ 
well-being in these courses (Lauermann et al., 2017). Interestingly, students 
with migration background reported higher importance of effort, a finding 
that might be explained through the immigrant optimism hypothesis (Kao 
& Tienda, 1995). A study of college students in Belgium also showed that stu- 
dents with migration background reported a more growth-oriented mindset 
(Corradi et al., 2019). There were no differences in self-reported effort, but 
teachers gave lower ratings to the effort of students with migration back- 
ground. This finding could be interpreted as a bias in teacher ratings (cf. 
Brandmiller et al., 2020). 


4.2. Students’ Demographic Characteristics did not Moderate 
Intervention Effects 


Overall, our tests of students’ characteristics as moderators of intervention 
effects yielded very little evidence of such moderator effects. Our findings 
thus do not support prior findings on more beneficial intervention effects of 
relevance interventions for girls in mathematics (Gaspard, Dicke, Flunger, 
Brisson, et al., 2015; Shin et al., 2022) or for students from families with a 
relatively low level of parental education and from underrepresented ethnic- 
ities or with migration background (Harackiewicz et al., 2016; Weidinger et 
al., 2022). Still, our findings are valuable, as we conducted a rigorous test of 
such moderator effects by considering multiple outcomes in a large sample. 
If at all, the moderator effects that tended to show up pointed toward more 
pronounced intervention effects for students at risk for low motivation and 
achievement in this context. However, more pronounced also meant stronger 
adverse and unintended effects of the intervention (e. g., reduced intrinsic 
values for girls). It thus seems that this “one size fits all” intervention did not 
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reduce gaps in motivation and achievement related to students’ demographic 
characteristics - at least when implemented as a universal prevention as was 
done in this study. One could also argue that the intervention worked robustly 
for students bringing different characteristics. Indeed, the intervention was 
developed to target all ninth-grade academic track students and included 
multiple components to be able to target students with different expectancy 
levels and interests. A possible approach to reduce educational disparities 
could then be to implement the intervention selectively for students at risk for 
low motivation and achievement in this context such as female students and 
students from families with low parental education or migration background. 
However, it needs to be considered that the main effects of the intervention 
were rather small in this study, did not extend to all the outcomes considered, 
and positive effects were accompanied with adverse effects on some outcomes 
including cost. Furthermore, when selectively implementing interventions in 
the classroom context, it is important to make sure that the students “at risk” 
do not suffer from stereotype threat elicited through an expressed need for 
intervention. An alternative approach to increase the effectiveness of relevance 
interventions in reducing educational disparities might be to tailor them more 
specifically towards students at risk for low motivation and achievement. 
More research is also necessary to understand the mechanisms driving het- 
erogeneity in intervention effects depending on students’ characteristics. In 
the MoMa 1 study, where the intervention was found to be more beneficial 
for girls than for boys, only female researchers delivered the intervention in 
the classroom. It is thus possible that role model effects were the reason for 
this differential efficacy. In this study, the master’s students and teachers who 
delivered the intervention were more diverse in terms of gender composition 
although most master’s students were still female. Taking advantage of such 
role model effects, one possibility for targeting the intervention more toward 
individual students might be to present them with quotations from individuals 
who share the students’ demographic characteristics. 


4.3. Limitations 


Although we conducted our analyses using data from a large cluster-ran- 
domized trial, our study also has some limitations. First, whereas the study 
design and the analyses for the main effects were preregistered, we did not 
preregister the analyses reported here. They should therefore be considered 
more exploratory, which is also why we corrected for multiple testing. Second, 
although the study was adequately powered to detect small main effects (see 
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Gaspard et al., 2021), the power to detect moderator effects for the considered 
binary student characteristics at the student level was lower. This means that 
the difference in the effects between groups would have had to be relatively 
large for us to be able to detect such differences with sufficient power. It is 
therefore possible that we did not detect all true moderator effects. Power 
issues also kept us from exploring intersections between the different student 
characteristics that we considered. As prior research has pointed towards the 
importance of considering such intersections (e. g., Harackiewicz et al., 2016; 
Jansen & Stanat, 2015; Weidinger et al., 2022), this is an important line for 
future research. Third, only limited information was available on students’ 
family background. In the MoMa 1 study, parents’ motivational beliefs related 
to mathematics were shown to be more closely associated with their students’ 
motivational beliefs compared with broader characteristics such as parental 
education and these beliefs were also shown to moderate the intervention’s 
effects (Hafner et al., 2017, 2018). However, we were not able to test if similar 
moderation effects could be found in the MoMa 2 study. Finally, and perhaps 
most importantly, our sample consisted only of academic track students in the 
state of Baden-Wiirttemberg so that student diversity was limited. Future stud- 
ies should therefore adapt and test relevance interventions in other contexts, 
such as less selective types of schools to test the generalizability of the findings 
for students who are more diverse in terms of their academic achievement and 
family background. Although almost one third of the students in our sample 
had a migration background, there was limited diversity in those students’ 
countries of origin (see Supplemental Materials). This limited diversity kept 
us from exploring whether students from some countries of origin benefit- 
ted more from the intervention than those from others. Such heterogeneity 
could be explored in future research, for instance building on math-related 
country-level indicators stemming from international large-scale assessments. 


4.4. Conclusion 


To conclude, our study shows that there are disparities in academic track stu- 
dents’ motivation and achievement in mathematics on the basis of students’ 
gender, parental education, and migration background. However, our rigor- 
ous tests of potential moderating effects of a relevance intervention through 
these demographic characteristics provided little evidence of such moderator 
effects. It thus seems that this particular intervention was not effective in 
reducing disparities in motivation and achievement - at least when imple- 
mented as a universal prevention for all students as was done in this study. 
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Future research might therefore have to tailor these interventions more spe- 
cifically toward different groups of students. 
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Die Rolle der Lehrkraft im Kontext 
von Selbstregulation beim Lernen 


(Angehende) Lehrkräfte als selbstreguliert Lernende 
und selbstregulationsfördernde Lehrende 


Charlotte Dignath & Antonia Fischer 


Zusammenfassung 


Lehrkräfte spielen eine zentrale Rolle für die Förderung von Selbstre- 
gulation beim Lernen (SRL). In Anlehnung an Modelle professioneller 
Lehrkräftekompetenz lassen sich darum Befunde zusammentragen zum 
Wissen von Lehrkräften über SRL und SRL-Förderung, sowie zu ihren 
professionellen Überzeugungen und ihren motivationalen Orientierungen 
mit Blick auf SRL-Förderung. Lehrkräfte haben im Kontext von SRL meh- 
rere Rollen. So sind sie einerseits Fördernde der SRL ihrer Schüler*innen. 
Andererseits sind sie auch selbst lebenslange selbstregulierte Lernende, 
und - mit Blick auf ihre Unterrichtsplanung und -durchführung - auch 
selbstreguliert Unterrichtende. Es werden Forschungsbefunde dargestellt, 
die diese multiplen Rollen untersuchen. So zeigt eine Interventionsstudie 
mit Lehramtsstudierenden, wie sie ihre Selbstregulationskompetenzen im 
Zuge eines Kurztrainings weiterentwickeln. Eine Zusammenhangsstudie 
erklärt außerdem Unterschiede in der SRL-Förderung von Lehrkräften 
anhand von Aspekten professioneller SRL-Kompetenz sowie von Kontext- 
merkmalen der Klasse und der Schule. Das Kapitel endet mit Implikationen 
für weitere Forschung in diesem Bereich, sowie für die verschiedenen Pha- 
sen der Lehrkräftebildung, die Schulentwicklung und die schulische Praxis. 


Schlagworte: Selbstregulation; Selbstreguliertes Lernen; Lehrkräfte; 
Kompetenz; Training 
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Abstract 


Teachers play a central role in promoting self-regulation in learning (SRL). 
Therefore, following models of professional teacher competence, findings 
can be compiled on teachers’ knowledge of SRL and SRL promotion, as 
well as on their professional beliefs and motivational orientations with 
regard to SRL promotion. Teachers have multiple roles in the context of 
SRL. On the one hand, they are promoters of their students’ SRL. On the 
other hand, they are also lifelong self-regulated learners, and - with regard 
to their lesson planning and teaching - self-regulated teachers. Research 
findings that examine these multiple roles are presented. For example, 
an intervention study with pre-service teachers shows how they develop 
their SRL competencies in the course of a brief training. A correlational 
study also explains differences in teachers’ SRL promotion based on aspects 
of professional SRL competence as well as classroom and school contex- 
tual characteristics. The chapter concludes with implications for further 
research in this area, as well as for the various stages of teacher education, 
school development, and school practice. 


Keywords: self-regulation; self-regulated learning; teachers; competence; 
training 


1. Einleitung 


Mittlerweile gibt es zahlreiche Befunde, die deutlich machen, dass Selbst- 
regulation beim Lernen (SRL) mit der Leistung zusammenhängt (Dent & 
Koenka, 2016) und einen positiven Einfluss auf Lernerfolg (Jansen et al., 
2019) und Lernmotivation (Efklides, 2011) hat. Umso mehr stellt sich die 
Frage, warum SRL noch nicht standardmäßig im Unterricht der Grund- und 
weiterführenden Schule sowie an der Universität oder in der beruflichen 
Bildung gefördert wird und auch nicht fest in der Ausbildung von Lehrkräf- 
ten verankert ist (Dignath & Veenman, 2021). Eine zentrale Rolle bei der 
Förderung von SRL spielen die Lehrkräfte (Hattie, 2008). In diesem Kapitel 
wird darum die professionelle Kompetenz von Lehrkräften bzgl. SRL genauer 
beleuchtet und ihre Rolle sowohl als selbstregulierte Lernende als auch als 
Lehrkräfte, die SRL fördern, untersucht. Hierzu werden sowohl empirische 
Befunde zur SRL von angehenden Lehrkräften als auch zur Vorhersage der 
SRL-Förderung durch verschiedene Aspekte der professionellen Kompetenz 
von Lehrkräften exemplarisch dargestellt. Zuletzt werden Implikationen für 
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die SRL-Forschung mit Lehrkräften sowie praktische Implikationen für Lehr- 
kräfteaus- und Fortbildung dargestellt. 


1.1. Selbstregulation beim Lernen 


Bei SRL werden sowohl kognitive als auch affektiv-motivationale und behavi- 
orale Prozesse beim Lernen aktiviert, um die Zielerreichung zu unterstützen 
(Pintrich, 2001). So orientieren sich selbstreguliert Lernende zu Beginn des 
Lernprozesses zunächst, um die Anforderungen der Lernaufgabe zu identifi- 
zieren und mit ihren Lernvoraussetzungen abzugleichen. Im nächsten Schritt 
setzen sie sich ein konkretes Ziel, das sie erreichen möchten, und planen die 
Schritte, die für die Zielerreichung erforderlich sind. Während der Aufga- 
benbearbeitung überwachen selbstreguliert Lernende ihren Lernfortschritt, 
monitoren ihre Aufmerksamkeit, und sorgen dafür, dass sie die Lernhand- 
lung nicht unterbrechen, sondern zielführend weiterarbeiten. Nach Ablauf 
der Aufgabenbearbeitung evaluieren diese Lernenden ihren Lernfortschritt 
und vergleichen ihr Lernergebnis mit dem Lernziel. Dabei reflektieren sie, ob 
sie das Ziel erreicht haben oder noch weitere Arbeitsschritte notwendig sind 
(Zimmerman, 2000). Selbst sehr effiziente und leistungsstarke Lernende sind 
hin und wieder auf solche Regulationsprozesse angewiesen, um ihr Lernen 
am Laufen zu halten und zu verbessern (Greene, 2021). 

Häufig setzen Lernende Strategien ein, um ihre Regulationsprozesse 
zu unterstützen (Dinsmore & Fryer, 2019). Dabei wirken sich kognitive 
Strategien direkt auf den Informationsverarbeitungsprozess aus, während 
metakognitive Strategien sich nur indirekt darauf auswirken, indem sie den 
Lernprozess initiieren, aufrechterhalten und kontrollieren. Daneben wirken 
motivationale und volitionale Strategien, die stark mit Emotionen verbun- 
den sind, auf den Lernprozess ein (Boekaerts, 1999). Auch Strategien zur 
Emotionsregulation spielen zudem eine Rolle für eine effektive SRL (Dig- 
nath, 2022). 

Der Einsatz von Selbstregulationsstrategien unterstützt das Lernen dabei 
über die Lebensspannen hinweg, bereits vom frühen Schulalter an, aber 
auch noch beim universitären bzw. beruflichen Lernen im Erwachsenenalter 
(Dent & Koenka, 2016). 
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1.2. Förderung von Selbstregulation beim Lernen 


Was können Lehrende tun, um die SRL der Lernenden zu fördern? SRL kann 
sowohl indirekt aktiviert (situativer Ansatz) als auch direkt gefördert (kogni- 
tiver Ansatz) werden (Dignath, 2021; Dignath & Veenman, 2021). Aus kogni- 
tiver Sicht beinhaltet das Lernen die Speicherung und den Abruf von Wissen 
im und aus dem Langzeitgedächtnis sowie die Verarbeitung im Arbeitsge- 
dächtnis. Die Theorie des Cognitive Load geht davon aus, dass komplexe 
Lernumgebungen, die zu viel Information enthalten, dem Lernen abträg- 
lich sind (Sweller & Chandler, 1991). Folglich sollte der Unterricht explizite 
Anleitung, direkte Instruktion und Scaffolding beinhalten, um eine kognitive 
Überlastung zu vermeiden (Kirschner et al., 2006). Im Hinblick auf die För- 
derung von SRL impliziert dies eine direkte Instruktion von SRL-Strategien. 
Die Forschung hat gezeigt, dass SRL-Strategietraining besonders effektiv ist, 
wenn die Lehrkräfte explizit den Nutzen von SRL-Strategien betonen und 
metakognitiv mit den Schüler*innen über deren Strategieeinsatz reflektieren 
(Dignath & Büttner, 2008). Zahlreiche Interventionsstudien konnten zeigen, 
dass Schüler*innen solche SRL-Strategien erlernen können und dass sich dies 
positiv auf ihren Lernerfolg auswirkt. Dabei profitieren auch Schüler*innen 
mit Lernschwierigkeiten (Hattie et al, 1996; Donker et al., 2014) und sehr 
junge Lernende (Dignath et al., 2008) bereits von Strategietrainings, aber 
auch bei Studierenden finden sich hohe Effekte für Selbstregulationstrainings 
(Theobald, 2021). Insbesondere eine Kombination verschiedener Strategie- 
arten sowie eine explizite Vermittlung des Nutzens dieser Strategien haben 
sich dabei als besonders wirksam herausgestellt (Dignath & Büttner, 2008). 
Daneben können Lehrkräfte die Lernumgebung derart gestalten, dass 
von den Schüler*innen SRL erfordert wird. Diese situativen Ansätze bein- 
halten Merkmale konstruktivistischer Lernumgebungen, die schülerzen- 
triert sind und die Ko-Konstruktion von Wissen durch den Lernenden 
berücksichtigen. Mehrere Merkmale konstruktivistischer Lernumgebungen 
aktivieren indirekt die SRL. So sollte zum einen das Vorwissen der Schü- 
ler*innen aktiviert werden, um ihnen zu helfen, anspruchsvolle Ziele zu set- 
zen und zu verfolgen. Außerdem sollte das Lernen in einem Anwendungs- 
kontext stattfinden. Bei abstrakten Lernangeboten ist es herausfordernd, 
die in der Schule gelernten Inhalte auf alltägliche Anwendungskontexte zu 
übertragen. Kooperative Lernangebote unterstützen zudem den Austausch 
unterschiedlicher Perspektiven. Insbesondere bei komplexen Lernaufga- 
ben, die hohe mentale Anforderungen an die Schüler*innen stellen, lassen 
sich diese Anforderungen in kooperativen Settings auf die kognitiven Res- 
sourcen mehrerer verteilen. Darüber hinaus geben schülerzentrierte Ler- 
numgebungen den Lernenden die Möglichkeit, sich aktiv an Planung und 


294 


Durchführung der Lernaktivitäten zu beteiligen. Wenig vorstrukturierte 
Lernumgebungen gewähren ihnen somit mehr Autonomie durch freie Wahl 
des Lerninhalts, des Lernorts, der Kooperationspartner, des Schwierig- 
keitsgrads oder des Lerntempos (Perry & Rahim, 2011). Damit schaffen sie 
Übungsmöglichkeiten, die Lernende indirekt dazu ermutigen, ihr Lernen 
selbst zu regulieren. 

Damit Schüler*innen und Studierende selbstregulierende Lernende wer- 
den, brauchen sie beides - eine direkte Instruktion von Selbstregulations- 
strategien sowie Übungsgelegenheiten, um diese Strategien anwenden zu 
können (Dignath & Veenman, 2021). Zudem sollten kognitive und situative 
Lernansätze miteinander verbunden werden, um einen Conceptual Change 
bei den Lernenden zu unterstützen (Vosniadou, 2007). So hat sich beispiels- 
weise problembasiertes Lernen als Unterrichtsstrategie als vorteilhaft für die 
Förderung von Conceptual Change erwiesen, wobei sich gezeigt hat, dass 
die Lerneffekte in problemorientierten Lernumgebungen höher sind, wenn 
diese auch eine direkte Instruktion von Strategien beinhalten (Wijnia et al., 
2014). Damit Lernende bereit sind, das modellierte Verhalten nachzuah- 
men, müssen sie sich zudem ihrer naiven Überzeugungen und Fehlkonzepte 
bewusstwerden, und die Diskrepanz zu den wissenschaftlichen Konzepten 
erkennen, mit denen sie konfrontiert werden. Nur dann kann eine bewusste 
Veränderung von Konzepten stattfinden (Vosniadou, 2007). Nur wenig For- 
schung hat allerdings bisher die Rolle von Konzepten und Überzeugungen 
für SRL-Trainings bei Schüler*innen und Studierenden untersucht. 


2. Professionelle Kompetenz von Lehrkräften bzgl. 
Selbstregulation 


2.1. Selbstregulationskompetenz von Lehrkräften 


Zur Einordnung der professionellen Kompetenz von Lehrkräften hinsicht- 
lich der SRL nutzen wir das COACTIV-Modell (Baumert & Kunter, 2013) als 
ein allgemeines Modell der Lehrkräftekompetenz, das darauf abzielt, Unter- 
schiede in der Unterrichtspraxis von Lehrkräften zu erklären und potenziel- 
len Fortbildungsbedarf zu identifizieren. Während die Unterrichtspraxis als 
die Initiierung und Unterstützung von Lernprozessen durch die Lehrkräfte 
konzeptualisiert wird, die den Schüler*innen hilft, bestimmte Lernziele zu 
erreichen, wird Unterrichtskompetenz als ein multidimensionales Konstrukt 
betrachtet, das sowohl kognitive als auch motivational-affektive Aspekte 
umfasst, die Unterrichtspraxis vorhersagen (Baumert & Kunter, 2013). Zur 


295 


Erklärung der Unterrichtspraxis werden vier Kompetenzaspekte herange- 
zogen: (1) das professionelle Wissen der Lehrkräfte, (2) ihre pädagogischen 
Überzeugungen und (3) motivationale Orientierungen, sowie (4) die Selbst- 
regulation der Lehrkräfte (Kunter et al., 2013). 

Lehrkräfte spielen eine entscheidende Rolle bei der Förderung von SRL, 
aber erst seit Kurzem untersucht die Forschung, ob und wie Lehrkräfte 
SRL im Unterricht fördern, und welche Merkmale von Lehrkräften ihre 
SRL-Praktiken beeinflussen. So ist bisher noch wenig darüber bekannt, was 
die Förderung von SRL vorhersagt (Lawson et al., 2019). Für eine systema- 
tische Untersuchung dieser Frage beziehen wir das COACTIV-Modell auf 
den Kontext der SRL-Förderung (Dignath, 2021), um SRL-Kompetenz von 
Lehrkräften umfassend zu untersuchen. 


2.2. Professionelles Wissen über SRL und SRL-Förderung 


Das professionelle Wissen von Lehrkräften zum Thema SRL lässt sich unter- 
teilen in inhaltliches Wissen über das Konstrukt SRL sowie didaktisches 
Wissen über die Förderung von SRL (Dignath, 2021; Zohar et al., 2001). 
Die wenigen Studien, die das inhaltliche Wissen von Lehrkräften über SRL 
untersucht haben, zeigen, dass viele Lehrkräfte den funktionalen Wert von 
SRL-Strategien nicht erkennen, dass es ihnen generell an strategischem Wis- 
sen mangelt (Askell-Williams et al., 2012), dass Lehrkräfte viele Fehlkonzepte 
und fragmentiertes Wissen über SRL-Strategien haben (Glogger-Frey et al., 
2018), und über nur geringes Wissen über metakognitive Strategien verfügen 
(Dignath & Büttner, 2018). 

Mit Blick auf das didaktische Wissen von Lehrkräften über die Förde- 
rung von SRL zeigt sich, dass einige Lehrkräfte SRL hauptsächlich für leis- 
tungsstarke Schüler*innen als relevant erachten, obwohl Befunde zeigen, 
dass leistungsschwache Schüler*innen besonders von einer direkten Inst- 
ruktion von SRL-Strategien profitieren (Zohar & Peled, 2008). Schließlich 
verfügen viele Lehrkräfte nur über begrenztes Wissen über pädagogische 
Konzepte zur Förderung von SRL (Zohar & Ben-Ari, 2022) und kennen 
zur SRL-Förderung vor allem indirekte Förderansätze, während sie nur 
selten an eine direkte Strategieinstruktion zur Förderung von SRL denken 
(Michalsky, 2014). 
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2.3. Professionelle Überzeugungen über SRL und SRL-Förderung 


Die professionellen Überzeugungen zur Selbstregulation lassen sich einteilen 
in Überzeugungen, die konsistent und inkonsistent mit der wissenschaftlichen 
Vorstellung von SRL sind (Vosniadou et al., 2020). Solche Überzeugungen 
beinhalten auch die Vorstellung, ob SRL für Lernende geeignet ist. Neben 
diesen Überzeugungen zu SRL als eine Form des Lernens können Überzeu- 
gungen von Lehrkräften sich aber auch im Sinne pädagogischer Überzeu- 
gungen auf die Förderung von SRL beziehen (Lombaerts et al., 2009). Diese 
pädagogischen Überzeugungen lassen sich wiederum unterteilen in Über- 
zeugungen zur direkten und zur indirekten SRL-Förderung. Sie beinhalten 
unter anderem Vorstellungen darüber, ob SRL für die Zielgruppe der eigenen 
Schüler*innen geeignet ist. 

Untersuchungen zu den Überzeugungen von (angehenden) Lehrkräften 
über SRL zeigen, dass sie gleichzeitig sowohl Überzeugungen, die mit der 
SRL-Theorie vereinbar sind, als auch damit inkonsistente Überzeugungen 
(Fehlkonzepte) haben können (Darmawan et al., 2020). Die meisten Lehr- 
kräfte haben eine positive Einstellung zur indirekten Förderung von SRL 
(Lombaerts et al., 2009), wobei solche konstruktivistischen Überzeugungen 
oft mit einem geringen Wissen über didaktische Mittel zur Förderung von 
SRL verbunden sind (Zohar et al., 2001). 


2.4. Motivationale Orientierungen bzgl. SRL und SRL-Förderung 


Die Überzeugungen von Lehrkräften hängen eng mit ihrer Motivation zusam- 
men, selbstreguliert vorzugehen und Selbstregulation zu vermitteln. Nur 
sehr wenig Forschung hat sich bisher mit der Motivation von Lehrkräften für 
SRL und SRL-Förderung beschäftigt. Am häufigsten wurde bisher stellver- 
tretend für Motivation die Selbstwirksamkeitserwartung von Lehrkräften, 
SRL erfolgreich zu fördern, untersucht (z.B. De Smul et al., 2018; Dignath, 
2016, 2021; Perry & Rahim, 2011). In unserer aktuellen Forschung erwei- 
tern wir diesen Fokus und betrachten die SRL-Motivation aus einer Erwar- 
tungs-Wert-Perspektive (Eccles et al., 1983). Die Erwartungs-Wert-Theorie 
besagt, dass der Wert, den Lernende einer Lernaktivität zuschreiben, sowie 
der erwartete Erfolg bei der Ausführung der Aktivität das leistungsbezogene 
Verhalten vorhersagen. Aus der Erwartungs-Wert-Perspektive heraus sagen 
also die Selbstwirksamkeitserwartung der Lernenden, SRL-Strategien effektiv 
nutzen zu können, sowie ihr wahrgenommener Wert der Nutzung solcher 
SRL-Strategien voraus, ob Lernende SRL-Strategien anwenden (Zimmerman 
& Risemberg, 1997). Ebenso nehmen wir dies für die SRL-Förderung an: Nur, 
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wenn eine Lehrkraft eine ausreichend hohe Selbstwirksamkeitserwartung hat, 
SRL in ihrem Unterricht effektiv fördern zu können, und SRL zudem für ihre 
Schüler*innen für nützlich hält, sind die motivationalen Voraussetzungen 
dafür gegeben, dass die Lehrkraft SRL in ihrem Unterricht auch fördert. 

Selbstwirksamkeitserwartungen von Lehrkräften umfassen ihren Glau- 
ben an die eigene Fähigkeit, komplexe Aufgaben zu bewältigen, und gelten als 
wichtiger Faktor, der das menschliche Handeln im Allgemeinen (Bandura, 
1997) und das Unterrichtsverhalten der Lehrkräfte sowie viele andere damit 
verbundene Ergebnisse im Besonderen beeinflusst (Tschannen-Moran et 
al., 1998). Die Selbstwirksamkeitserwartungen einer Lehrkraft bestimmen, 
wie viel Mühe und Ausdauer sie in das Erreichen eines bestimmten Ziels 
investiert (Gregoire, 2003), und beziehen sich im Hinblick auf die Förde- 
rung von SRL auf die Überzeugung der Lehrkräfte, dass sie in der Lage sind, 
ihre Schüler*innen für SRL zu begeistern (De Smul et al., 2018). Sie stellen 
somit einen wichtigen Motivationsfaktor für das Unterrichtsverhalten von 
Lehrkräften dar (Dignath, 2016). Die Forschung zeigt, dass die Selbstwirk- 
samkeit von Lehrkräften zu den stärksten Prädiktoren für die SRL-Praxis 
von Lehrkräften gehört (Dignath, 2021). Lehrkräfte, die SRL nicht oder 
nur unzureichend fördern, fühlen sich oft nicht selbstwirksam genug, SRL 
anzuregen (Vandevelde et al., 2012). Trotz positiver Überzeugungen zu SRL 
fühlen sich viele Lehrkräften nicht in der Lage, die SRL ihrer Schüler*innen 
zu unterstützen (Perry et al., 2008). Das Wissen der Lehrkräfte kann sich 
auf die Entwicklung ihrer Selbstwirksamkeit auswirken: Lehrkräfte, die der 
Meinung sind, dass sie über grundlegendes Wissen verfügen, entwickeln mit 
größerer Wahrscheinlichkeit ein hohes Gefühl der Selbstwirksamkeit (Mor- 
ris et al., 2017). 

Neben der Selbstwirksamkeitserwartung spielen zudem auch die Erwar- 
tungen einer Lehrkraft über den Nutzen von SRL eine Rolle. Im Gegensatz 
zur zunehmenden Forschungsbasis zur Lehrkräfte-Selbstwirksamkeit im 
Kontext von SRL gibt es bisher kaum Forschung dazu, für wie nützlich Lehr- 
kräfte SRL für sich und für ihre Schüler*innen halten. Es gibt allerdings eine 
aktuelle Studie, die die Bedeutung des erwarteten Nutzens von SRL-Strate- 
gien für den SRL-Strategieeinsatz bei Lernenden zeigen konnte (Karabenick 
et al., 2021). 
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2.5. Selbstregulation: Lehrkräfte als selbstreguliert Lernende und 
Unterrichtende 


Die Selbstregulation der Lehrkräfte kann sich sowohl auf die Regulation 
des eigenen Lernens als auch auf die Regulation des Unterrichtens beziehen. 
Lehrkräfte müssen selbst gute selbstregulierte Lernende sein - das heißt ähn- 
liche SRL-Strategien einsetzen wie ihre Schüler*innen (z.B. Hilfe suchen von 
Peers und Mentoren) - um ihren Schüler*innen SRL-Strategien glaubwürdig 
und effektiv vermitteln zu können (Kramarski & Kohen, 2017; Peeters et al., 
2014). Auch wenn die Trennung teilweise nicht deutlich ist, lassen sich dabei 
SRL-Strategien unterscheiden, die eher berufsorientiert sind (d.h. sich auf die 
Arbeit des Unterrichtens beziehen) von solchen, die eher lernorientiert sind 
(d.h. sich auf das Lernen für und vom Unterrichten beziehen; Randi, 2004). 
So sind auch Lehrkräfte lebenslange Lernende, die sich beispielsweise durch 
Hinzuziehen professioneller Literatur weiterbilden, wobei sie SRL-Strategien 
einsetzen können, in dem sie ihre Lernhandlungen planen, überwachen und 
reflektieren. Zudem können sie bei der Planung und der Durchführung ihres 
Unterrichts selbstreguliert vorgehen, indem sie sich konkrete Ziele setzen, 
passende Lernhandlungen planen, Instruktionsstrategien nutzen, um diese 
Handlungen anzuleiten und die Ziele zu erreichen, den Lernfortschritt der 
Schüler*innen überwachen und evaluieren, und ihr Vorgehen eventuell anpas- 
sen (Butler et al., 2004; Kramarski & Michalsky, 2009). 

Insgesamt zeigt die bisher dünne Forschungsbasis zur Selbstregulation 
von Lehrkräften, dass mehr Forschung erforderlich ist, um den Vorhersa- 
gewert von Wissen, Überzeugungen, Selbstwirksamkeit und Selbstregula- 
tion von Lehrkräften im Kontext von SRL zu verstehen. Allerdings legen 
die Befunde nahe, dass die Förderung von SRL bereits im Lehramtsstudium 
zentral ist, damit Lehramtsstudierende von Beginn ihrer Ausbildung an 
selbstregulierte Lernende und später auch selbstregulierte Lehrende werden 
(Kramarski & Heaysman, 2021). 


2.6. Befunde zum Zusammenspiel professioneller SRL-Kompetenz 
von Lehrkräften 


Obwohl die meisten Studien zur SRL-Kompetenz von Lehrkräften bisher 
eher einen variablenzentrierten Ansatz verfolgt haben, indem sie spezifische 
Aspekte der Lehrerkompetenz separat untersuchten (z.B. Zohar & Ben-Ari, 
2022 für Wissen; Lombaerts et al., 2009 für Überzeugungen; De Smul et al., 
2018 für Selbstwirksamkeit; Kramarski & Kohen, 2017 für Selbstregulation), 
gibt es mittlerweile erste Studien, die das Zusammenspiel zwischen verschie- 
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denen Kompetenzaspekten prüfen. Diese Befunde legen nahe, dass manche 
Kompetenzaspekte, wie das Wissen der Lehrkräfte und ihre Überzeugungen 
über die Förderung von SRL, nicht unbedingt zusammenhängen (Dignath, 
2016; Spruce & Bol, 2015), während andere, wie das Wissen der Lehrkräfte und 
ihre Selbstwirksamkeitserwartung, deutlichere Zusammenhänge aufweisen 
(Dignath, 2016; Karlen et al., 2020). 

Neben dem Zusammenwirken einzelner Kompetenzaspekte spielt zudem 
die Frage eine Rolle, welche Kompetenzaspekte die Förderung von SRL im 
Unterricht vorhersagen können. Hier ist die Evidenz bisher recht uneinheit- 
lich. Während die Überzeugungen von Lehrkräften in einigen Studien ein 
guter Prädiktor sind für ihre selbstberichtete (z. B. Thomas et al., 2022) bzw. 
die beobachtete SRL-Förderung (z.B. Depaepe et al., 2010) sind, zeigt die 
Überzeugung von Lehrkräften in anderen Studien keine Vorhersagekraft 
(z.B. Dignath & Büttner, 2018). Übereinstimmend stellen die Forscher fest, 
dass die Selbstwirksamkeit der Lehrkräfte bei der Umsetzung von SRL ihre 
selbstberichtete SRL-Praxis vorhersagt (Karlen et al., 2020). Überraschen- 
derweise wurde dies nicht für das Wissen der Lehrkräfte über die Förderung 
von SRL festgestellt (Dignath & Van der Werf, 2012). Stattdessen scheint 
die Selbstwirksamkeitserwartung von Lehrkräften ein guter Prädiktor für 
ihre selbstberichtete (Dignath, 2016) und die von Schüler*innen berichtete 
SRL-Förderung (Dignath, 2021) zu sein. 


3. Forschungsbefunde zur Rolle von Lehrkräften im Kontext 
von SRL 


3.1. Ein Forschungsbeispiel zur Rolle von Lehrkräften als 
selbstregulierende Lernende 


Modelling Examples und Refutation zur Anregung von Conceptual 
Change 


Eine aktuelle Studie unserer Arbeitsgruppe zur Rolle von Lehrkräften als 
selbstregulierende Lernende zielte darauf ab, die SRL-Kompetenz von Lehr- 
amtsstudierenden zu verbessern und zu untersuchen, welche Form von Inst- 
ruktion für diese Zielgruppe besonders wirksam ist. Als Interventionsinhalte 
wurden zentrale metakognitive SRL-Strategien (Planung, Überwachung, 
Evaluation) mithilfe direkter Strategieinstruktion vermittelt. Dabei kamen 
zielgruppengerechte Instruktionsvideos zum Einsatz, bei denen die Strategien 
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über ein Modell situationsspezifisch anhand der Situation des Vorbereitens 
einer Unterrichtsskizze eingeführt wurden. 

Die Aktivierung von Modelllernen mit Hilfe von Vorbildern kann 
besonders zu Beginn des Studiums von Nutzen sein, da sich eine modellba- 
sierte Instruktion als besonders effektiv für Novizen erwiesen hat (Renkl, 
2014). Während sich Mastery-Modelle, bei denen ein Peer den Lernenden 
das korrekte Vorgehen demonstriert, eher für fortgeschrittene Lernende 
als wirksam erwiesen haben, haben sich Coping-Modelle insbesondere für 
unerfahrene Lernende bewährt, da sie eine leichtere Identifikation mit dem 
Rollenmodell ermöglichen, indem hier ein Peer das fehlerhafte Vorgehen 
darstellt, dies aber letztendlich ablegt und das korrekte Vorgehen vormacht 
(Van Gog & Rummel, 2010). Coping-Modelle bieten daher eine Möglich- 
keit, Fehlkonzepte zu aktivieren, um sie dann im Anschluss argumentativ 
zu widerlegen. 

Im Gegensatz zu einseitiger Information zielt widerlegende Information 
(Refutation) darauf ab, einen Conceptual Change, d.h. einen konzeptio- 
nellen Wandel, bei den Lernenden anzuregen. Hierzu befasst sich die Inst- 
ruktion explizit mit allgemein verbreiteten Fehlkonzepten zum Thema, die 
allerdings sofort widerlegt werden, und es wird eine geeignetere Erklärung 
angeboten (Hynd, 2001). Dabei werden die Fehlvorstellungen der Lernenden 
und die korrekte Information gleichzeitig aktiviert und die Lernenden dabei 
unterstützt, die Inkonsistenz zwischen ihren vorherigen Konzepten und der 
neuen Information zu erkennen. Dies führt schließlich zu einer Überarbei- 
tung der Fehlvorstellungen und zu einem Conceptual Change (Kendeou et 
al., 2011). Darüber hinaus bieten Refutationen direkt eine Alternative, um die 
falsche Vorstellung zu ersetzen, indem sie den Lernenden ermöglichen, ihre 
Vorstellungen zu aktualisieren (Ecker et al., 2010). Schließlich ist Refutation 
dann effektiver, wenn erklärt wird, warum die Fehlvorstellung falsch war 
(Lewandowsky et al., 2005). 

Für diese Studie haben wir uns sowohl die Mastery- und Coping-Mo- 
dellierung als auch das Prinzip von Refutation zu Eigen gemacht, um den 
Nutzen des Aktivierens und Widerlegens von Fehlkonzepten über das Ler- 
nen für einen Conceptual Change bzgl. der SRL zu testen. Bei der Strategi- 
einstruktion wurde das Adressieren von Fehlkonzepten bzgl. des Lernens 
variiert. Hierzu wurde in der einen Interventionsbedingung ein „Mastery 
Model“ gezeigt, d.h. eine Studierende, die SRL-Strategien sehr gut einsetzt. 
In der anderen Interventionsbedingung wurde ein „Coping Model“ gezeigt, 
d.h. eine Studierende, die zunächst über ihre uneffektiven Vorstellungen 
über das universitäre Lernen reflektiert (Aktivierung von Fehlkonzepten), 
und erst im zweiten Schritt von einer Freundin SRL-Strategien an die Hand 


bekommt, die sie dann einsetzt und damit ihr Lernen erfolgreich zu Ende 
bringt (Refutation). 


Hypothesen 


Unsere Hypothesen umfassen, dass (1) die Teilnehmenden in den Interven- 
tionsgruppen (Mastery und Coping Modelling) nach dem Anschauen des 
Videos über eine ausgeprägtere SRL-Kompetenz verfügen, d.h. (a) mehr über 
SRL wissen, (b) mehr mit wissenschaftlichen Theorien konsistente Überzeu- 
gungen, (c) weniger inkonsistente Überzeugungen aufweisen (d.h. weniger 
Fehlkonzepte haben), (d) selbstwirksamer hinsichtlich der eigenen Nutzung 
von SRL-Strategien sind und (e) SRL-Strategien als nützlicher bewerten als 
die Kontrollgruppe. 

Im Vergleich der beiden Interventionsgruppen vermuten wir (2) höhere 
Effekte für die Coping-Gruppe. Basierend auf Befunden zu Fehlkonzepten 
von (angehenden) Lehrkräften über das Lernen (z.B. Lawson et al., 2019) 
erwarten wir, dass die Teilnehmenden in der Coping-Gruppe (a) einen grö- 
ßeren Wissenszuwachs bzw. (b) eine Zunahme von Überzeugungen zum 
Lernen, die mit der wissenschaftlichen Theorie konsistent sind, bei (c) einer 
gleichzeitigen Abnahme inkonsistenter Fehlkonzepte aufweisen. Aufgrund 
der Aktivierung der Fehlkonzepte sowie der anschließenden Refutation 
im Coping-Video lässt sich davon ausgehen, dass hier ein ausgeprägterer 
Conceptual Change stattfindet als in der Mastery-Gruppe, in der nur die 
Strategien vermittelt werden, ohne zuvor die Fehlkonzepte zu adressieren 
(Gregoire-Gill et al., 2022). Darüber hinaus gehen wir (d) von einem höhe- 
ren Anstieg der Selbstwirksamkeitsüberzeugungen zur Nutzung von SRL in 
der Coping-Gruppe aus. Dies ist darauf zurückzuführen, dass die Teilneh- 
menden in der Coping-Gruppe die Schwierigkeiten des Modells, von dem 
sie lernen, direkt miterleben, sich dadurch besser mit diesem identifizieren 
können und den Lernerfolg des Modells dann auch leichter für sich selbst 
als möglich erachten. Im Gegensatz dazu haben es die Studierenden in der 
Mastery-Gruppe schwerer, sich mit dem Modell zu identifizieren (Van Gog 
& Rummel, 2010). Zudem nehmen wir an, dass (e) die Studierenden der 
Coping-Gruppe SRL-Strategien für ihr Lernen als nützlicher erachten, da sie 
den Nutzen der Strategien beim Modell direkt beobachten konnten. 
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Methodisches Vorgehen 


Um diese Hypothesen zu prüfen, wurde eine Interventionsstudie mit drei 
Gruppen, zwei Experimentalgruppen und einer aktiven Kontrollgruppe, 
durchgeführt. 157 Studierende (v.a. Lehramt, aber auch Psychologie, Erzie- 
hungswissenschaften und Soziologie) nahmen an der Studie teil. Im Schnitt 
waren diese 22.66 Jahre alt, 831% waren weiblich. 

Die Teilnehmenden beantworteten im Labor zunächst Fragebögen und 
Fragen mit offenem Antwortformat zu den verschiedenen Aspekten ihrer 
SRL-Kompetenz. Im Anschluss sahen die Studierenden eins von drei Videos. 
In den beiden Interventionsvideos wurde die Nutzung von SRL-Strategien, 
Überzeugungen in Bezug auf SRL-Strategien, die Nützlichkeitserwartung 
sowie die Selbstwirksamkeitserwartung in Bezug auf die Nutzung solcher 
Strategien durch beispielbasiertes Modelllernen (Van Gog & Rummel, 2010) 
thematisiert. Das Video der Mastery-Gruppe (n = 56) zeigte eine Studen- 
tin, die eine Aufgabe für ihr Lehramtsstudium sehr selbstreguliert angeht - 
d.h., sich zunächst einen Überblick über die Aufgabenstellung verschafft, 
ihr Vorgehen plant, ihr Verhalten während der Aufgabenbearbeitung über- 
wacht und ihren Fortschritt im Nachhinein reflektiert. In der Coping- 
Gruppe (n = 53) sahen die Teilnehmenden dieselbe Studentin, die ihre Auf- 
gabe zu Beginn jedoch wenig selbstreguliert angeht und sich viel unnötige 
Arbeit macht, was zu Frustration führt, woraufhin sie nach Lösungen sucht. 
Sie lernt etwas über SRL-Strategien, probiert diese aus und kommt dann zu 
einem zufriedenstellenden Ergebnis. Die Kontrollgruppe (n = 48) sah das 
Video einer Lehramtsstudentin, die von ihrem Praktikum in der Grund- 
schule erzählt. Dieses Video sollte bewusst keinen Bezug zu SRL haben, 
aber eine vergleichbare Alternativ-intervention bieten. Im Anschluss erfass- 
ten wir erneut die SRL-Kompetenzen der Studierenden. Vier Wochen nach 
der Datenerhebung im Labor füllten die Teilnehmenden im Rahmen einer 
Follow-Up-Befragung erneut die Fragebögen zu ihren SRL-Kompetenzen 
online aus (N = 139). 


Ergebnisse 


Die Daten wurden mittels ANOVA mit Messwiederholung analysiert, bei der 
die drei Messzeitpunkte (Prä-, Post- und Follow-Up-Testung) als Innersub- 
jektfaktor und die drei Gruppen als Zwischensubjektfaktor berücksichtigt 
wurden. Es fanden sich die folgenden signifikanten paarweisen Vergleiche 
(p < 0.05): (a) die eigene Nutzung von SRL-Strategien unterschied sich in 
der Coping-Gruppe signifikant zwischen Prä- und Posttestung (die Nut- 
zung nahm zu), (b) die Nutzenüberzeugungen der Studierenden in Bezug 
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auf SRL-Strategien unterschied sich signifikant zwischen der Prä- und Post- 
testung in der Coping-Gruppe (die Nutzenüberzeugungen nahmen zu), (c) 
in der Kontrollgruppe stiegen die inkonsistenten Überzeugungen zu SRL 
der Studierenden sowohl zwischen Prä- und Post-Testung als auch zwischen 
Post- und Follow-Up-Testung signifikant an, während in den Interventions- 
gruppen ein signifikanter Rückgang zwischen Prä- und Post-Testung, aber 
wiederum ein signifikanter Anstieg zwischen Post- und Follow-Up-Testung 
zu verzeichnen war. Bezüglich (d) des Wissens schnitt die Coping-Gruppe 
zum Post- und Follow-Up-Test signifikant besser ab als die beiden anderen 
Gruppen (p < 0.05). Auch stieg in den Interventionsgruppen das Wissen über 
SRL zum Posttest signifikant an (p < 0.05), um dann zur Follow-Up-Testung 
wieder signifikant (p < 0.05) zurückzugehen. Die verschiedenen Studiengänge 
(Lehramt vs. Erziehungswissenschaft, Psychologie und Soziologie) unter- 
schieden sich dabei bloß signifikant in ihren inkonsistenten Überzeugungen: 
Zum Prä- und Postzeitpunkt waren diese bei Lehramtsstudierenden geringer 
ausgeprägt als bei Studierenden der anderen Studiengänge. 


3.2. Ein Forschungsbeispiel zur Rolle von Lehrkräften als Fördernde 
der Selbstregulation 


Erklärungsfaktoren für die direkte und indirekte SRL-Förderung 


Neben Fragen zur Entwicklung von SRL bei angehenden Lehrkräften unter- 
suchen wir in unserer Forschung, wie die SRL-Kompetenz von Lehrkräften 
im Schuldienst mit ihrer Förderung von SRL im Unterricht zusammenhängt. 
Nur wenige Studien haben bisher systematisch untersucht, inwieweit das 
professionelle Wissen über SRL die SRL-Förderung erklärt. Dabei scheint es 
einen Unterschied zu machen, ob es um das Inhaltswissen über SRL geht oder 
um das didaktische Wissen, wie SRL gefördert werden kann. So finden sich 
in Studien, die das Inhaltswissen von Lehrkräften über SRL erfassten, keine 
oder nur geringe Zusammenhänge mit der SRL-Förderung der Lehrkräfte 
(Dignath, 2016), während das didaktische Wissen über die Vermittlung von 
SRL vereinzelt mit der SRL-Förderung der Lehrkräfte zusammenhängt (Kar- 
len et al., 2020). Auch bzgl. des Zusammenhangs von Überzeugungen und 
SRL-Förderung sind die Befunde inkonsistent, was wiederum mit der Art von 
Überzeugungen und ihrer Operationalisierung zusammenhängen könnte. 
So finden sich signifikanten Zusammenhänge, wenn sowohl die Überzeu- 
gungen als auch die SRL-Förderung mit Fragebogen erfasst wurde (Heirweg 
et al., 2020), während sich in Unterrichtsbeobachtungsstudien nur geringe 


bis keine Zusammenhänge fanden (Dignath & Büttner, 2018; Spruce & Bol, 
2015). Demgegenüber sind die Befunde für die Selbstwirksamkeitserwartung 
von Lehrkräften, SRL effektiv fördern zu können, konsistent. So zeigen sich 
durchgängig positive Zusammenhänge zwischen der Selbstwirksamkeit und 
der selbstberichteten SRL-Förderung der Lehrkräfte (Dignath, 2016; Karlen et 
al., 2020). Von Lehrkräften wird erwartet, dass sie ein gutes Vorbild für ihre 
Schüler*innen sind, indem sie selbstregulierende Prozesse im Klassenzimmer 
vorleben (Cetin, 2015). Dennoch scheint es, dass eine selbstregulierte Lehr- 
kraft nicht zwangsläufig gute SRL-Förderung betreibt: Chumworatayee (2012) 
stellte beispielsweise fest, dass manche Lehrkräfte zwar viele SRL-Strategien 
anwenden, aber nur begrenzt Strategien in ihrem Unterricht vermitteln. Um 
eine selbstregulationsfördernde Lehrkraft zu werden, bedarf es vermutlich 
mehr als nur eigene SRL. 


Hypothesen 


Um zu verstehen, wie Unterschiede in der SRL-Förderung von Lehrkräften 
erklärt werden können, haben wir die folgenden Hypothesen getestet: (1) Die 
SRL-Förderung von Lehrkräften wird positiv durch (a) Wissen über SRL, (b) 
konsistente Überzeugungen bzgl. SRL, (c) eigene Selbstregulation, (d) Selbst- 
wirksamkeitsüberzeugung, SRL zu fördern, und negativ (e) durch ihre inkon- 
sistenten Überzeugungen bzgl. SRL vorhergesagt. (2) Die SRL-Förderung der 
Lehrkräfte wird außerdem durch (a) die derzeitigen SRL-Fähigkeiten ihrer 
Schüler*innen, den Prozentsatz der Schüler*innen mit (b) Lernschwierigkei- 
ten und (c) Deutsch als Zeitsprache, (d) die Klassengröße, (e) die Klassenstufe 
und (f) die SRL School Vision der Schule beeinflusst. 


Methodisches Vorgehen und Ergebnisse 


Hierzu untersuchten wir in einer Online-Befragung anhand der Angaben von 
N = 257 Lehrkräften der 1. bis 8. Klasse, welche Aspekte der SRL-Kompetenz 
der Lehrkräfte ihre direkte und indirekte Förderung von SRL im Unterricht 
vorhersagen. Die Lehrkräfte waren im Schnitt 37.55 Jahre alt und hatten 
10.59 Jahre Lehrerfahrung. 83 % von ihnen waren weiblich. Wir erfragten das 
professionelle Wissen der Lehrkräfte zu SRL, ihre Überzeugungen bzgl. SRL 
und Fehlkonzepte, sowie die Selbstwirksamkeitserwartung und die eigene 
SRL der Lehrkraft. Zudem wurden die Lehrkräfte gebeten, ihre direkte und 
indirekte Förderung anzugeben. Um auch zu ermitteln, ob Lehrkräfte ihre 
SRL-Förderung an die Merkmale ihrer Schüler*innen anpassen, wurden 
zudem Variablen auf Klassen- und Schulebene erhoben. Da die Studie wäh- 
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rend der Corona-Pandemie durchgeführt wurde, wurden die Daten online 
erhoben. 

Mittels eines Strukturgleichungsmodells zur Vorhersage der direkten 
bzw. der indirekten SRL-Förderung wurden Bedingungsfaktoren ermittelt, 
die Unterschiede in der von den Lehrkräften berichteten SRL-Förderung 
erklären. Die Ergebnisse zeigen, dass die Fehlkonzepte von Lehrkräften zum 
Lernen (d.h. ihre Überzeugungen, die inkonsistent zur SRL-Theorie sind) 
die direkte Förderung von Selbstregulation vorhersagen. Lehrkräfte, die 
mehr Fehlkonzepte aufweisen, berichten, weniger direkte SRL-Förderung 
in ihrem Unterricht durchzuführen. Ein weiterer Kompetenzaspekt, der 
die direkte SRL-Förderung vorhersagte, war die Selbstwirksamkeitserwar- 
tung. Je selbstwirksamer eine Lehrkraft ist, desto mehr direkte SRL-Förde- 
rung wurde berichtet. Mit Blick auf die Frage, inwieweit die SRL-Förderung 
von Lehrkräften mit Merkmalen ihrer Klasse oder Schule zusammenhängt, 
zeigte sich, dass der Anteil der Schülerinnen mit Lernstörungen in der 
Klasse sowie die SRL School Vision Prädiktoren für die direkte SRL-Förde- 
rung waren. SRL School Vision meint dabei die Vision, die die Schule der 
Lehrkraft für die Förderung von SRL hat (Heirweg et al., 2020). So berich- 
teten Lehrkräfte, mehr direkte SRL-Förderung umzusetzen, wenn sie aus 
Schulen mit einer schwachen SRL School Vision kamen, und wenn sie einen 
höheren Anteil an Schüler*innen mit Lernstörungen in der Klasse hatten. 

Für die indirekte Förderung von SRL erwies sich von allen Kompeten- 
zaspekten nur die Selbstwirksamkeitserwartung der Lehrkräfte als signi- 
fikanter Prädiktor. Hinsichtlich der Kontextvariablen zeigte sich, dass die 
indirekte Aktivierung von SRL durch die Klassenstufe signifikant vorher- 
gesagt wurde. Je höher die Klassenstufe, umso selbstregulationsförderlicher 
gestalteten die Lehrkräfte die Lernumgebungen der Schüler*innen. 

Da sich zeigte, dass die Selbstwirksamkeitserwartung der Lehrkräfte 
hohe Korrelationen mit den anderen Kompetenzaspekten aufwies, führten 
wir zusätzlich Moderationsanalysen mit der Selbstwirksamkeitserwartung 
als Moderator und den Kompetenz- bzw. Kontextaspekten als Prädiktoren 
durch. Wir fanden eine negative Interaktion zwischen der Selbstwirksam- 
keitserwartung und der SRL School Vision für die direkte Förderung von 
SRL. Scheinbar kann die SRL-Vision der Schule die negativen Auswirkungen 
einer geringen Selbstwirksamkeitsüberzeugung auf die direkte SRL-Förde- 
rung der Lehrkräfte abfedern. Des Weiteren fanden wir einen Interaktions- 
effekt von Selbstwirksamkeitsüberzeugungen und den durch die Lehr- 
kraft eingeschätzten SRL-Fähigkeiten der Schüler*innen auf die indirekte 
SRL-Förderung der Lehrkräfte. Lehrkräfte, die ihre Schüler*innen bereits 
für selbstreguliert halten, scheinen SRL eher indirekt zu fördern. Dies gilt 
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jedoch nur für Lehrkräfte mit einer hohen Selbstwirksamkeit zur Förderung 
von SRL-Strategien. 

Eine Limitation beider Studien ist jedoch, dass sowohl die Selbstregu- 
lation (Studie 1) als auch die SRL-Förderung (Studie 2) der Teilnehmen- 
den im Selbstbericht erfasst wurde und die Ergebnisse aufgrund sozialer 
Erwünschtheit der Teilnehmenden damit verzerrt sein könnten. Dennoch 
liefern die Ergebnisse erste Hinweise über Zusammenhänge professioneller 
Kompetenz und der SRL sowie der SRL-Förderung von (angehenden) Lehr- 
kräften und es lassen sich Implikationen für die Aus- und Fortbildung von 
Lehrkräften sowie die schulische Praxis ableiten. Weitere Forschung sollte 
die hier gefundenen Zusammenhänge und Effekte mit Fremdberichts- bzw. 
Beobachtungsverfahren für SRL und SRL-Förderung validieren. 


4. Implikationen für Forschung und Praxis 
4.1. Implikationen für weitere Forschung 


Ein erst in sehr wenigen Studien adressierter Aspekt professioneller Kompe- 
tenz von Lehrkräften sind ihre Fehlkonzepte (siehe Vosniadou et al., 2020). 
In unseren beiden aktuellen Studien zeigte sich, dass Fehlkonzepte über 
SRL sowohl in der Ausbildung von angehenden Lehrkräften als auch bei der 
Vorhersage von SRL-Förderung bei Lehrkräften eine wichtige Rolle spielen. 
So berichten Lehrkräfte, die mehr Fehlkonzepte aufweisen, weniger direkte 
SRL-Förderung in ihrem Unterricht durchzuführen. Zudem haben sich Fehl- 
konzepte von Lehramtsstudierenden als veränderungssensitiv im Zuge einer 
Kurzintervention herausgestellt, auch wenn die Effekte über einen längeren 
Zeitraum dann nicht stabil waren. Diese Befunde werfen die Frage auf, wie 
Fehlkonzepte auch langfristig verändert werden können. 

In einigen Studien hat sich mittlerweile gezeigt, dass die Selbstwirksam- 
keitserwartung von Lehrkräften der stärkste Prädiktor unter den Kompe- 
tenzaspekten ist, um die SRL-Förderung vorherzusagen (Dignath, 2016; 
2021; Karlen et al., 2020). Darüber hinaus zeigen die Ergebnisse unserer 
aktuellsten Studie, dass die Selbstwirksamkeit zudem als Moderator fun- 
giert. So spielt die SRL School Vision der eigenen Schule für wenig selbst- 
wirksame Lehrkräfte eine deutlich größere Rolle für ihre SRL-Förderung als 
für hoch selbstwirksame Lehrkräfte. Diese Ergebnisse zeigen, wie wichtig es 
ist, die verschiedenen Kompetenzaspekte simultan zu erfassen, um mögliche 
Interaktionen identifizieren zu können. 


Solche Interaktionseffekte zwischen Aspekten professioneller SRL-Kom- 
petenz spielen aber nicht nur eine Rolle für das Verstehen und Vorhersagen 
von SRL-Förderung im Unterricht, sondern auch für die Entwicklung der 
SRL-Kompetenz bei (angehenden) Lehrkräften. Hierzu braucht es experi- 
mentelle oder quasi-experimentelle Interventionsstudien, um nicht nur 
Zusammenhänge sondern Kausalschlüsse ableiten zu können. Nur wenig 
Forschung hat sich mit der Entwicklung professioneller SRL-Kompetenz 
beschäftigt und dabei Effekte auf die SRL-Förderung untersucht. In einer 
Interventionsstudie zeigte sich auch hier die Bedeutung der Selbstwirksam- 
keit von Lehrkräften, die die Wirksamkeit einer Lehrkräfte-Intervention zur 
Förderung des SRL moderierte: Lehrkräfte, die bereits zu Beginn der Inter- 
vention über eine hohe Selbstwirksamkeit verfügten, profitierten auch mehr 
von der Intervention (Dignath, 2021). 

Auch wenn wir solch einen Effekt der Selbstwirksamkeit in unserer aktu- 
ellsten Studie für die Kurzintervention für Lehramtsstudierende nicht fin- 
den konnten, zeigte sich auch hier, dass Aspekte der motivationalen Orien- 
tierung mit der Intervention adressiert werden konnten. So verbesserte die 
Kurzintervention zwar nicht die Selbstwirksamkeit, aber die Wahrnehmung 
des Nutzens von SRL-Strategien. Weitere Interventionsforschung sollte das 
Wechselspiel von Selbstwirksamkeitserwartung und Wertzuschreibung 
bzgl. SRL weiter untersuchen, um detaillierte Erkenntnisse zu liefern, wel- 
che Kompetenzaspekte sich in welcher Reihenfolge verändern, wenn (ange- 
hende) Lehrkräfte über SRL lernen. 


4.2. Implikationen für die Phasen der Lehrkräftebildung, die 
Schulentwicklung und die schulische Praxis 


Neben den Erkenntnissen, die die Theorie zur professionellen SRL-Kompe- 
tenz von Lehrkräften weiterbringen, lassen sich aus den hier besprochenen 
Ergebnissen unmittelbar Implikationen für Aus- und Weiterbildung, Schul- 
entwicklung und die schulische Praxis ableiten. Insbesondere die Befunde 
von Interventionsforschung können dabei Impulse geben für die Aus- und 
Weiterbildung von Lehrkräften zum Thema SRL. So weisen die Befunde 
unserer Interventionsstudie darauf hin, dass es hilfreich ist, (angehenden) 
Lehrkräften nicht nur Wissen über SRL zu vermitteln, sondern ihre Fehl- 
konzepte zu aktivieren und zu entkräften. So bieten sich mit Blick auf die 
Lehrkräfteausbildung viele Möglichkeiten, SRL bereits im Studium zu fördern 
und dabei vorhandene Fehlkonzepte zu adressieren. Die Ergebnisse von Stu- 
die 1 legen dabei nahe, dass sich das Wissen von Lehramtsstudierenden über 
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SRL-Strategien gut fördern lässt, wobei der Wissensanstieg über einen länge- 
ren Zeitraum nicht nachhaltig und für eine SRL-Förderung nicht ausreichend 
ist. Tiefergehende Maßnahmen sind notwendig, um neben dem Aufbau von 
Wissen auch Fehlkonzepte zu bearbeiten und Überzeugungen zu verändern. 

Zwar haben in unserer Studie in beiden Interventionsgruppen die Fehl- 
konzepte zum Posttest hin signifikant abgenommen; allerdings zeigte sich 
im Follow-Up-Test nur in der Coping-Bedingung eine signifikante Zunahme 
des wahrgenommenen Nutzens von SRL-Strategien sowie des Einsatzes von 
SRL-Strategien. Dieser Befund deutet darauf hin, dass die Reduzierung 
von Fehlkonzepten scheinbar nicht ausreicht, um tatsächlich den Einsatz 
von SRL-Strategien zu verbessern, sondern - im Sinne eines Hot Concep- 
tual Change (Sinatra, 2005) - auch die Motivation vorhanden sein muss, 
SRL-Strategien einzusetzen (Karabenik et al., 2021). Für die Aus- und Wei- 
terbildung von Lehrkräften bedeutet dies, dass hier sowohl Fehlkonzepte 
adressiert als auch der Nutzen von SRL deutlich gemacht werden sollte, um 
langfristige Effekte im Sinne einer Verhaltensänderung erwarten zu können. 

Hinsichtlich Implikationen für die Lehrkräfteweiterbildung hat Studie 
2 gezeigt, dass Fehlkonzepte von Lehrkräften über SRL auch hier eine Rolle 
spielen sollten. Darüber hinaus legen die Ergebnisse von Studie 2 nahe, 
dass insbesondere die Selbstwirksamkeit von Lehrkräften gestärkt werden 
sollte, damit sie sich die Förderung von SRL im Unterricht zutrauen - ins- 
besondere und auch bei Lernenden, die noch wenig selbstreguliert sind. 
Auch hier könnte das Lernen am Modell mithilfe von Instruktionsvideos 
wirksam sein, wenn die Videos nicht (nur) das Lernen mit SRL-Strategien, 
sondern vor allem die Förderung von SRL im Unterricht beispielhaft vor- 
führen. Ebenso ist eine explizite Vermittlung der Förderstrategien für SRL 
angezeigt, um Fehlkonzepte von Lehrkräften gezielt anzusprechen und zu 
verändern. Darüber hinaus zeigen die Ergebnisse von Studie 2 Implikati- 
onen für die Schulentwicklung auf. So wurde der schulischen Vision über 
SRL in der SRL-Forschung bisher nur sehr wenig Beachtung geschenkt; auch 
in der schulischen Praxis wird sie in Deutschland bisher nur sehr vereinzelt 
berücksichtigt. Mit Blick auf Schulentwicklung könnten Schulen jedoch sehr 
von der Formulierung einer gemeinsamen Schulvision auf SRL profitieren, 
da in einer Schulgemeinschaft mit einer starken SRL-Vision auch Lehrkräfte 
mit einer niedrigen Selbstwirksamkeitserwartung SRL in ihrem Unterricht 
fördern. Eine schulweite Vision für das Thema scheint daher die Selbstwirk- 
samkeitserwartung einer einzelnen Lehrkraft kompensieren zu können und 
sollte somit im Schulentwicklungskonzept verankert werden. 

Mit Blick auf Implikationen für die schulische Praxis lassen sich die 
Ergebnisse von Studie 1 auch auf den Schulkontext und das Lernen von 
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Schüler*innen über SRL übertragen. So bieten Instruktionsvideos auch im 
Schulkontext eine gute Möglichkeit, SRL am Modell einzuführen und damit 
Fehlkonzepte von Schüler*innen über SRL zu verändern. 

Um Fehlkonzepte von Lernenden und Lehrenden aktivieren zu können, 
ist es zunächst allerdings notwendig, ein genaues Bild dieser Fehlkonzepte 
zu haben. Allerdings gibt es bisher kaum Forschung, in der Fehlkonzepte 
über SRL aufgedeckt wurden. Die Identifizierung solcher im Widerspruch 
zu wissenschaftlichen Theorien stehenden Überzeugungen kann einen Bei- 
trag dazu leisten, die Richtung des Aus- und Weiterbildungsprogramms von 
Lehrkräften und der Schulentwicklung zu bestimmen (Vosniadou et al., 
2020). 
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50 Jahre Institut für Schul- 
entwicklungsforschung (IFS) - 
Beiträge des Instituts zur 
Empirischen Bildungsforschung 


Ramona Lorenz & Alyssa Grecu 


1. Das IFS von der Gründung bis heute 


Das heutige Institut für Schulentwicklungsforschung wurde mit Erlass des 
Ministeriums für Wissenschaft und Forschung des Landes NRW vom 27. Juni 
1973 als „Arbeitsstelle für Schulentwicklungsforschung“ (AFS) an der dama- 
ligen Pädagogischen Hochschule Ruhr offiziell errichtet und war damit das 
erste Forschungsinstitut in diesem Bereich an einer deutschen Hochschule. 
Seinen heutigen Namen trägt das IFS seit 1980, als der Begriff „Arbeits- 
stelle“ durch den des „Instituts“ ersetzt wurde. Der Gründer, Professor em. 
Hans-Günter Rolff, leitete das Institut und prägte durch seine langjährige 
Arbeit die Entwicklung des IFS bis zu seiner Emeritierung im Jahre 2005 
maßgeblich. Professor i. R. Heinz Günter Holtappels, ebenfalls ein ausgewie- 
sener Experte im Bereich der Schulentwicklungsforschung, übernahm im Jahr 
2002 die Institutsleitung bis zur Berufung und Wahl zum Geschäftsführenden 
Direktor von Professor i. R. Wilfried Bos im Jahr 2005. Mit Professor i. R. 
Wilfried Bos gewann das Institut insbesondere im Kontext internationaler 
Large-Scale-Assessments an Bekanntheit und Ansehen hinzu. Seit dem Jahr 
2014 ist Professorin Nele McElvany die Geschäftsführende Direktorin des IFS 
und erweiterte die Schwerpunkte des Instituts mit Perspektiven der Pädago- 
gischen Psychologie an der Schnittstelle zur Empirischen Bildungsforschung 
aufindividuelle Bildungsprozesse, die Unterrichtsqualität und die Lehr- und 
Lernforschung. 

Auch die Mitarbeiter*innen, deren Anzahl im Laufe der Jahre stetig 
wuchs - bei der Gründung noch mit neun Stellen bis heute mehr als 50 
Mitarbeiter*innen - prägten das Institut. Sie trugen aktiv zu einer national 
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und international bedeutsamen Forschungsstärke und Visibilität des IFS in 
zentralen Themenbereichen der Empirischen Bildungsforschung bei. Nicht 
zuletzt ist dies allen Professor*innen und Mitarbeitenden zu verdanken, die 
mit ihren Forschungsbereichen am Institut in Wissenschaft, Bildungspolitik, 
Schule und der breiten Öffentlichkeit dem IFS zu merklichen Erfolgen ver- 
halfen. Wer könnte den Beitrag des IFS zur Empirischen Bildungsforschung 
daher besser beschreiben, als seine Geschäftsführenden Direktor*innen und 
Professor*innen? An sie richten wir unsere Fragen zu 50 Jahren IFS. 


2. „Mit welchen Forschungsschwerpunkten hat das IFS die 
Empirische Bildungsforschung national und international 
im Laufe der Zeit geprägt?“ 


Beim Blick auf 50 Jahre Forschung am Institut für Schulentwicklungsfor- 
schung beschreibt die Geschäftsführende Direktorin Nele McElvany aus 
heutiger Sicht die wichtigsten Schwerpunkte des IFS wie folgt: 


Das IFS steht rückblickend auf die vergangenen 50 Jahre für theoriebasierte pra- 
xisnahe Schulentwicklungsforschung beispielsweise zu Fragen der Schulstruktur, 
der Organisationsentwicklung oder des Ganztags, aber auch für Schulleistungs- 
studien mit dem Ziel der objektiven und vergleichenden Messung von Bildungs- 
ergebnissen und dem Stand des Bildungssystems. Gleichzeitig waren und sind 
Themen wie soziale Ungleichheiten und individuelle und institutionelle Einfluss- 
faktoren auf Bildungsprozesse und Bildungserfolge ein wichtiger Fokus. 


Prof. Dr. Nele McElvany, Direktorin des IFS seit 2014, Professorin am IFS seit 
2009 


Das IFS wuchs im Laufe der Jahre zu einem Institut mit national und interna- 
tional sichtbaren Forschungsbeiträgen heran. Doch bereits in seinen Anfangs- 
jahren leistete das Institut einen herausragenden Beitrag für Entwicklungen 
im Schulsystem und prägte den Begriff der Schulentwicklung, wie der Grün- 
dungsdirektor rückblickend beschreibt: 


Damals hat das IFS in der Tat den Begriff und die Sache der Schulentwicklung 
in Deutschland etabliert. In der allerersten Runde, die ersten drei bis vier Jahre, 
war Schulentwicklung so etwas wie Schulentwicklungsplanung. [...] Und ich habe 
gemerkt, dass es einen riesigen Forschungsbedarf gab. 


Prof. em. Dr. Hans-Günter Rolff, Geschäftsführender Direktor des IFS 1973 bis 
2002, Professor am IFS bis 2005 
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Das neu definierte Verständnis der Schulentwicklungsforschung in Deutsch- 
land stellte mit zahlreichen Forschungsprojekten in den Jahren nach der 
Gründung einen wichtigen Grundpfeiler für das Institut dar. Die Organisa- 
tion Schule wurde mit interdisziplinären Ansätzen erforscht, um Organisa- 
tions- und Entwicklungsmodelle zu entwickeln, die den Beteiligten auf den 
verschiedenen Handlungsebenen bei der Lösung von Schulentwicklungspro- 
blemen halfen. 

Mit dem Ziel der Unterstützung von Schulen, die nun selber professi- 
onell Prozesse steuern können sollten, stellte und stellt die Identifikation 
von Gelingensbedingungen und Wirksamkeitsanalysen einen wichtigen 
Schwerpunkt des IFS dar. 


Das Wichtigste ist, glaube ich, dass wir in eine Richtung forschen, wo es um 
Gelingensbedingungen auch von Schulentwicklungsprozessen und -vorhaben 
geht. Das heißt: Es sind nicht nur Schulentwicklungsvorhaben, die von der Bil- 
dungsadministration oder der Bildungspolitik kommen, sondern Schulen haben 
mittlerweile ja auch selbst die Aufgabe - weil sie mehr Schulautonomie haben, 
mehr Gestaltungsautonomie -, sich weiter zu entwickeln. Und es ist ganz wichtig 
zu untersuchen: Was sind denn die gelingenden und die misslingenden Bedin- 
gungen für Schulentwicklung? Was für Voraussetzungen brauchen Schulen? Wel- 
che Unterstützung brauchen Schulen? Und wie kann man die Wirksamkeit von 
Schulen dabei verbessern? Teamhandeln, Schulleitungshandeln, das innovativ 
ist aber eben auch „Leadership“, also Führung bedeutet. Und auch die Steuerung 
von Schulentwicklungsprozessen. Das wurde dann auch erforscht und ich denke, 
dass wir da auch die Forschung ein Stück vorangebracht haben. 


Prof. i. R. Dr. Heinz Günter Holtappels, Professor am IFS von 2001 bis 2020 


Dabei war es nicht nur wichtig, die Forschung voranzutreiben, sondern auch 
die Forschungsergebnisse in die Praxis zu tragen und die Schulen bei Ent- 
wicklungsprozessen zu begleiten: 


Ich habe bedeutende Forschungsprojekte zu Schulautonomie, zu Ganztagsschu- 
len, zu Schulen in herausfordernden Lagen durchgeführt. Wenn ich zurückblicke, 
waren es immer innovative Schulentwicklungsansätze die ich erforscht habe: 
verschiedene Projekte auch zu Steuergruppen in Schulen, zu Schulprogrammar- 
beit, zu Schulautonomie, neue Grundschulmodelle und natürlich zur Entwicklung 
der Ganztagsschule. Und man könnte es auf den Punkt bringen: Ich glaube, das 
Bedeutendste, was ich eingebracht habe, war die Forschung zu Schulentwick- 
lungsprozessen in Kombination zur Schulwirksamkeit, also „School Effective- 
ness“ und „School Improvement“. Diese Verbindung habe ich eingebracht und 
mich um die gute Organisation der Schule bemüht: eine gute Schul- und Lern- 
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organisation, aber eben auch um Organisationslernen. Das heißt also auch, um 
eine Schule, die sich weiterentwickelt, die lernt. 


Prof. i. R. Dr. Heinz Günter Holtappels, Professor am IFS von 2001 bis 2020 


Auch Fragen der Schulstruktur finden bis heute ihren Platz in der Arbeit der 
Professor*innen am IFS. So forscht seit 2020 Professor Michael Becker am 
IFS zu individuellen Entwicklungsverläufen und schulischen Rahmenbedin- 
gungen. Damit bearbeitet er zentrale Themen des IFS im Kontext von Bedin- 
gungsfaktoren des Kompetenzerwerbs und setzt dabei in seiner aktuellen 
Arbeit einen Schwerpunkt auf langfristige Entwicklungsverläufe: 


Die Entwicklung von Menschen über die Lebensspanne hängt in hohem Maße 
von individuellen Merkmalen und von Umweltfaktoren ab. Die Schule zählt zu den 
wichtigen Umweltfaktoren für die kognitive Entwicklung von Kindern und Jugend- 
lichen. Wir untersuchen die Bedeutung schulischer Rahmenbedingungen, indivi- 
dueller Faktoren und das Wechselspiel dieser beiden für die Entwicklung über die 
Lebensspanne. 


Prof. Dr. Michael Becker, Professor am IFS seit 2020 


Einen bedeutsamen Meilenstein hinsichtlich der Forschungsschwerpunkte 
des IFS stellte die Einrichtung einer Professur dar, die das Forschungsfeld 
auf den Schwerpunkt informations- und kommunikationstechnologische 
Grundbildung erweiterte und 1992 mit Professorin Renate Schulz-Zander 
besetzt wurde. 


Mit dem IT-Bereich ist ein neuer Schwerpunkt am IFS entstanden und damit 
Schulentwicklung durch diese Perspektive erweitert worden. Schulentwicklung 
war zunächst ein neues Thema für mich. Ich habe es als Herausforderung ange- 
nommen, in meine Forschungen einbezogen und dies als einen wichtigen Aspekt 
bei der Einführung digitaler Medien in den Schulbereich und die Lehrerbildung 
bewertet. Meine Forschungsschwerpunkte waren Medien und IT in Bildung, 
Erziehung und Unterricht, Lernen und Lehren mit digitalen Medien in der Schule 
und Hochschule, Schul- und Unterrichtsforschung, Genderforschung sowie digi- 
tale Medien in der Lehrerbildung. 


Prof. i. R. Dr. Renate Schulz-Zander, Professorin am IFS von 1992 bis 2010 


An der Schnittstelle zur Erziehungswissenschaft war dies in Deutschland 
eine der ersten Professuren, die sich mit digitalen Medien und Bildungspro- 
zessen befasste, sodass das IFS auch hier eine Vorreiterrolle einnahm. Zudem 
gestaltete Professorin Renate Schulz-Zander auch international gut vernetzt 
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die Forschung in diesem für die damalige Zeit ganz neuen und innovativen 
Forschungsfeld mit. 


Meine internationalen Kooperationen führten unter anderem dazu, dass ich als 
Vertreterin für Deutschland Mitglied des internationalen Ausschusses COMMITT 
(COmmittee on MultiMedia in Teacher Training) des niederländischen Ministeri- 
ums für Bildung und Erziehung wurde und an einer gemeinsamen Forschungsreise 
zum Besuch einschlägiger Einrichtungen zur Nutzung von Informationstechnolo- 
gien für Bildungszwecke wie dem Peabody College der Vanderbilt University in 
Nashville, dem Media Lab des MIT in Cambridge, der BBN (Bolt Beranek and New- 
man Cooperation) in Boston und dem Schulzentrum in Houston, Texas teilnahm. 
COMMITT hat darauf basierend Empfehlungen zur Lehrerbildung publiziert, die 
prägend für meine weiteren Forschungen am IFS waren. Mit der Gründung und 
Schriftleitung der fachdidaktischen Zeitschrift LOG IN und der Zeitschrift Compu- 
ter und Unterricht habe ich maßgebliche Wirkungsfelder für die Umsetzung digi- 
taler Bildung in der Schule geschaffen. 


Prof. i. R. Dr. Renate Schulz-Zander, Professorin am IFS von 1992 bis 2010 


Die Forschungsergebnisse zum schulischen Einsatz digitaler Medien hatten 
Auswirkungen auf die Lehrkräftebildung, auf landesweite curriculare Ent- 
wicklungen und fanden bildungspolitisch Beachtung. Auch heute noch ist 
das Thema der Bildung im Kontext einer zunehmend digitalisierten Welt ein 
wichtiges Forschungsthema am IFS, das unter anderem von PD Dr. Ramona 
Lorenz in Projekten wie Schule digital - der Länderindikator oder der digi- 
talen Erfassung der Lesekompetenz bei der Internationalen Grundschul-Le- 
se-Untersuchung (IGLU) bearbeitet wird. 

Schon früh zeichnete sich das IFS durch eine internationale Orientierung 
aus, wie beispielsweise Aufenthalte des Gründungsdirektors als Visiting 
Professor an der Stanford University oder Gastprofessuren in Österreich 
und der Schweiz dokumentieren. 

Die Forschung des IFS sollte zudem - dies Ziel setzten sich die Profes- 
sor*innen des IFS um die Jahrtausendwende - noch sichtbarer und auch 
international stärker wahrgenommen werden. Neben der umfassenden Ver- 
netzung des IFS, der Teilnahme an internationalen Konferenzen sowie der 
Einladung internationaler Forscher*innen an das Institut gewann die inter- 
nationale Perspektive mit Professor i. R. Wilfried Bos eine neue Prägung - 
nämlich über die international vergleichende Schulleistungsforschung, mit 
der die Qualität des deutschen Schulsystems weltweit verglichen werden 
konnte: 
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Kern meiner Arbeit waren die Schulleistungsstudien, die habe ich gewissermaßen 
in Deutschland mit eingeführt oder großgemacht. [...] Weil ich mich bei Neville 
Postlethwaite, der international weltweit die Schulleistungsstudien seit den 60er 
Jahren implementierte, in Hamburg habilitiert habe, besaß ich ein Know-How, 
über das außer mir fast niemand verfügte. Die Studien und Daten wurden natür- 
lich alle international erhoben und ich saß jedes Mal dabei, wenn international 
diskutiert wurde. Ich sagte auch „IGLU muss kommen“ und war daran beteiligt, 
denn internationale Grundschuluntersuchungen gab es noch nicht. 


Prof. i. R. Dr. Wilfried Bos, Geschäftsführender Direktor des IFS von 2005 bis 
2014, Professor am IFS bis 2019 


Mit seinem Schwerpunkt im Bereich der Large-Scale-Assessment-Projekte 
hat Professor i. R. Wilfried Bos nationale und internationale Schulleistungs- 
studien wie die Internationale Grundschul-Lese-Untersuchung (IGLU), die 
Trends in International Mathematics and Science Study (TIMSS), Etappe 
4 des Nationalen Bildungspanels (NEPS) und die International Computer 
and Information Literacy Study (ICILS) am das IFS durchgeführt. Damit 
wurde das IFS federführend in diesem Bereich, fand Antworten auf drängende 
Fragen der Bildungsforschung und legte eine wichtige Basis für die weitere 
Forschung des Instituts. Ein spezieller Fokus war Professor Wilfried Bos dabei 
besonders wichtig, der bildungspolitisch weitreichend wahrgenommen wurde 
und unter anderem auch zu einer Revision von Ressourcenverteilungen an 
Schulen führte: 


Für mich war die Koppelung des Sozialindex an den Bildungserfolg wichtig, also: 
Aus welchen Elternhäusern kommen Kinder? Wie ist die Schichtabhängigkeit vom 
Bildungsergebnis? Da haben wir mit unseren Studien wirklich wegweisende Ant- 
worten gegeben und das war für mich persönlich mit das Wichtigste, weil diese 
Koppelung in Deutschland extrem hoch ist. Objektivität im Bildungswesen, wenn 
man die überhaupt einführen kann, lässt sich im Prinzip über Schulleistungsstu- 
dien erhöhen. Auch Schulentwicklung ist mit empirisch belastbaren Daten auf 
eine ganz andere Basis gestellt worden. 


Prof. i. R. Dr. Wilfried Bos, Geschäftsführender Direktor des IFS von 2005 bis 
2014, Professor am IFS bis 2019 


Die Schulentwicklungsforschung am IFS konnte damit auf der Grundlage sol- 
cher repräsentativen Daten einen entscheidenden Beitrag zur Weiterentwick- 
lung des Schulsystems leisten. Das datengestützte Monitoring hielt auch in der 
Bildungspolitik nachhaltig Einzug und wurde fester Bestandteil der Strategie 
der Kultusministerkonferenz zum Bildungsmonitoring in Deutschland. 
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Die Internationale Grundschul-Lese-Untersuchung (IGLU) wird ebenso 
wie die wissenschaftliche Leitung der Etappe 4 des Nationalen Bildungspa- 
nels (NEPS) am IFS inzwischen von Professorin Nele McElvany weiterge- 
führt, die im Jahr 2009 berufen wurde und seit 2014 als Geschäftsführende 
Direktorin die Entwicklung des IFS maßgeblich gestaltet. Mit ihr gewann 
das Institut eine Forschungsperspektive hinzu, die erweiternd auf individu- 
elle Bildungsprozesse und Unterrichtsqualität ausgerichtet ist: 


Bildungsprozesse und der Bildungserfolg im Kontext der Lesekompetenz von 
Schülerinnen und Schülern bilden den Kern meiner Forschungsarbeit. Dabei sind 
nicht nur die Messung der Lesekompetenz sowie ihre Entwicklung und Förde- 
rung leitende Anliegen, sondern auch die Untersuchung der Bedingungsfaktoren. 
Die Lesemotivation auf Schülerseite oder die Unterrichtsqualitat sind Beispiele 
für Bedingungsfaktoren, die bedeutsam für die Lesekompetenz sind, wobei die 
Lesemotivation selbst auch als Bildungsziel beschrieben werden kann. Darüber 
hinaus stehen auch der Wortschatzerwerb - gerade bei Kindern mit Migrations- 
hintergrund — oder auch grundsätzlich die Frage sozialer Ungleichheiten im Bil- 
dungskontext im Fokus von Forschungsprojekten. 


Prof. Dr. Nele McElvany, Direktorin des IFS seit 2014, Professorin am IFS seit 
2009 


Die Interventionsforschung (z. B. Motivationsförderung im schulischen Kon- 
text) ist ein Schwerpunkt, den Professorin Hanna Gaspard seit 2020 am Insti- 
tut vertritt. Zudem unterstützt sie die fundierte empirische Ausrichtung des 
IFS im Rahmen einer Professur für Educational Data Science und betont vor 
diesem Hintergrund die Relevanz von Forschungsarbeit am IFS: 


In der Empirischen Bildungsforschung wurden am IFS bereits zahlreiche bedeut- 
same Befunde erarbeitet, doch nun wird diese Forschung methodisch erweitert. 
Mit dem Profilbereich „From Prediction to Agile Intervention Research in the 
Social Sciences“ (FAIR) ist federführend durch das IFS ein interdisziplinärer For- 
schungsbereich entstanden, in dem die zunehmend größeren und komplexeren 
zur Verfügung stehenden Datensätze genutzt werden, um Vorhersagemodelle in 
den Sozialwissenschaften zu optimieren. Damit kann die Wirkung verfügbarer 
Interventionen zur Förderung von akademischem Erfolg und Wohlbefinden erhöht 
werden, indem sie basierend auf einem besseren Verständnis von Ursachen und 
Wirkungen datengestützte, individualisierte Anpassungen ermöglichen. Die Ent- 
wicklung und Anwendung innovativer Forschungsmethoden verbunden mit der 
Nutzung großer Datenmengen ist sehr wertvoll für aktuelle gesellschaftliche Her- 
ausforderungen im Bildungswesen. 


Prof. Dr. Hanna Gaspard, (Vertretungs-)Professorin am IFS von 2020 bis 2023 
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Auch weitere zwischenzeitlich an das IFS berufene Professor*innen setz- 
ten ihre Akzente: Neben Professorin Aileen Edele, die den Schwerpunkt der 
gesellschaftlichen Heterogenität und sozialen Ungleichheit verstärkt ein- 
brachte, beschäftigte sich Professorin Fani Lauermann mit Fragen zu Bil- 
dungsverläufen und Determinanten von Unterrichtsqualität und initiierte 
den Profilbereich FAIR maßgeblich. Außerdem unterstützte sie die Weiterent- 
wicklung der Internationalisierung des IFS durch internationalen Austausch, 
Engagement in internationalen Kontexten und herausragende internationale 
Publikationen umfassend. 

So baute das IFS seine Grundpfeiler der Forschung über die Jahre und 
Jahrzehnte immer weiter intensiv aus und entwickelte sich und seine zentra- 
len Forschungsbereiche gleichzeitig dynamisch weiter. Die Forschungsquali- 
tätträgt dabei in entscheidendem Maße zum nationalen und internationalen 
Renommee des Instituts bei. Schließlich ist diese Qualität nicht nur für die 
Forschung relevant, sondern ist auch ein wichtiger Baustein für Förderung 
und Qualifikation des wissenschaftlichen Nachwuchses: 


Die Forschungsstärke des IFS ist beeindruckend. Mit mehr als 200 Projekten seit 
der Gründung des Instituts bis heute besteht hier ein reicher Erfahrungsschatz 
in der Durchführung unterschiedlicher Studien: schulnahe Entwicklungsprojekte, 
Interventionsstudien bis hin zu großen Datensätzen und internationalen Schul- 
leistungsstudien. Diese Projekte sind vor allem methodisch sehr anspruchsvoll 
und werden auf hohem Niveau unter Anwendung komplexer statistischer Verfah- 
ren durchgeführt. Dies ist auch für die Weiterqualifikation des wissenschaftlichen 
Nachwuchses äußerst wertvoll. 


Prof. Fani Lauermann, PhD, Professorin am IFS von 2018 bis 2023 


Der intensive Austausch zwischen den Arbeitsgruppen bereichert damals wie 
heute sowohl die Forschung als auch die Qualifikation des wissenschaftlichen 
Nachwuchses. Durch die gelungene internationale Vernetzung, Sichtbarkeit 
der Forschungsergebnisse sowie internationale Forschungsprojekte kann das 
IFS nach 50 Jahren auf wichtige Erfolge zurückblicken und resümierend kann 
festgehalten werden: 


Das IFS zeichnet sich durch seine multiperspektivische Forschung aus: Von 
Grundlagenforschung bis hin zu konkreten Innovationen im Bildungswesen, von 
der Systemebene bis hin zu individuellen Lehr-Lernprozessen ist es eine ganz- 
heitliche Perspektive. Damit konnte das IFS in den vergangenen 50 Jahren zahl- 
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reiche wertvolle Befunde zur Verbesserung der Qualität und Entwicklung des 
Schulsystems beitragen. 


Prof. Dr. Nele McElvany, Direktorin des IFS seit 2014, Professorin am IFS seit 
2009 


3. „Wie hat das IFS auf die Bildungspolitik, 
Bildungsadministration und schulische Praxis gewirkt?“ 


Das IFS verfügt über ein breites Repertoire an Forschungsschwerpunkten, 
zu denen es empirische Studien mit essenziellen Befunden vorweisen kann. 
Doch welche Reichweite haben diese Befunde über die Forschung hinaus? Wir 
fragen die Professor*innen des Instituts, wie das IFS auf zentrale Entschei- 
dungsstrukturen auf Ebene der Bildungspolitik und Bildungsadministration 
und in die schulische Praxis gewirkt hat. 

Noch heute beeinflusst der Ursprungsgedanke der ‚Schulentwicklung‘ 
die Forschung und die pädagogische Praxis weitreichend. Der theoretische 
Ansatz der Schulentwicklung fand am IFS so seine Wurzeln: 


Wir haben in den ersten Jahren des Instituts Schulentwicklungspläne erstellt. [...] 
Doch bald wurde mir klar, in der Strukturfrage kommen wir nicht sehr viel weiter 
und diese löst auch nicht alle Probleme. Wir müssen innere Schulreform konzipie- 
ren und erforschen. So kam das neue Konzept der Schulentwicklung als Trias von 
der Organisationsentwicklung, Personalentwicklung und Unterrichtsentwicklung 
mit dem Bezugspunkt ‚lernende Schüler*innen‘. Und diesen Begriff, diese ‚Trias 
von den drei Wegen‘ haben fast alle Landesinstitute und alle Referenzrahmen für 
Schulqualitat übernommen. 


Prof. em. Dr. Hans-Günter Rolff, Geschäftsführender Direktor des IFS 1973 bis 
2002, Professor am IFS bis 2005 


Eine der deutlichsten Wirkungen geht zudem auf die Befunde der internati- 
onalen Schulleistungsstudien zurück, mit denen Professor i. R. Wilfried Bos 
mit seiner Arbeitsgruppe wichtige Erkenntnisse für die Qualitätssicherung 
im Bildungswesen erarbeitet hat. Die Teilnahme an internationalen Schulleis- 
tungsstudien ist in die Gesamtstrategie der Kultusministerkonferenz zum Bil- 
dungsmonitoring eingegangen, sodass das IFS mit der Durchführung solcher 
Studien auf bildungspolitischer Ebene eine herausragende Rolle einnimmt 
und die Qualitätssicherung im Bildungswesen sowie die Schulentwicklung 
maßgeblich unterstützt. Dabei bekräftigt auch Professor Michael Becker, 
dass insbesondere die Relevanz der Datenbasis und empirisch gestützte Ent- 
scheidungen eines der wesentlichen Merkmale der Wirkung des IFS ist. Die 


323 


internationale Schulleistungsforschung hat nicht zuletzt dazu beigetragen, 
dass das IFS ein international wahrgenommener Forschungspartner ist. Insge- 
samt kann eine ganzheitliche Perspektive auf das Schulsystem eingenommen 
werden: 


Das IFS setzt seit Jahrzehnten auf sehr unterschiedlichen Ebenen national und 
international Akzente. Das reicht von ganz grundlegenden Aspekten, wie etwa 
evidenzbasierte Forschung und Forschungs-Praxis-Kooperationen voranzu- 
treiben, über die Bearbeitung zentraler Themen der Schulentwicklung, wie bei- 
spielsweise dem Ausbau der Ganztagsschule, bis hin zur Gestaltung international 
vergleichender Large-Scale-Studien wie PIRLS/IGLU als Baustein des Systemmo- 
nitorings. Interessant finde ich insbesondere, wie das IFS die Forschung von der 
Arbeit an der konkreten Einzelschule bis hin zum nationalen und internationalen 
Systemmonitoring unter einem Dach vereint. Aber ich würde sagen, dass mir die 
Rolle des IFS, bildungspolitische Diskussionen stärker evidenzbasiert zu gestal- 
ten, besonders zentral erscheint. 


Prof. Dr. Michael Becker, Professor am IFS seit 2020 


Die Zusammenarbeit mit dem Bundesministerium für Bildung und Forschung 
(BMBF), der Kultusministerkonferenz (KMK), Ministerien der Lander, Lan- 
desinstituten, Bezirksregierungen oder Bildungsbüros war stets relevant und 
diese Vernetzung hat dazu beigetragen, auf der Systemebene die Qualität der 
Unterstützung der Schulen zu verbessern. So sind auch Qualitätskriterien und 
Orientierungsrahmen entstanden, die diese Institutionen in ihre Arbeit haben 
einfließen lassen. Ergebnisse der Forschung am IFS sind somit auf diesem 
Weg, aber auch in der direkten Arbeit mit Schulen, über Fortbildungen für 
Schulleitungen und Lehrkräfte in die Schulen gelangt. 


Für mich war es immer wichtig, dass unsere Ergebnisse in die schulbezogene 
Fortbildung und in die Beratung einmünden und die Ergebnisse zum Schulsys- 
tem natürlich auch in die regionale, in die kommunale Schulentwicklungsplanung 
eingehen. 


Prof. i. R. Dr. Heinz Günter Holtappels, Professor am IFS von 2001 bis 2020 


Neben den bildungspolitischen Debatten, für die das IFS eine empirische 
Grundlage geliefert hat, sind die Ergebnisse auch in die Lehrkräftebildung 
eingeflossen. Die Phasen der Lehrkräftebildung haben Veränderungen erfah- 
ren, die unter anderem mithilfe von Befunden des Instituts gestützt wurden, 
wie etwa zur Unterrichtsqualität oder Kompetenzförderung. Die Gründung 
der Deutschen Akademie für Pädagogische Führungskräfte (DAPF) der TU 
Dortmund durch Professor em. Hans-Günter Rolff im Jahr 2005 und die enge 
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Kooperation mit dem IFS hat maßgeblich dazu beigetragen, Wissenschaft 
und Praxis im Bereich der Fortbildung für Lehrkräfte und Schulleitungen 
eng miteinander zu verbinden. 

Der Transfer wissenschaftlicher Erkenntnisse in die Praxis stand am IFS 
immer im Fokus und wurde mit unterschiedlichen Formaten unterstützt. 
Große Projekte wie Schulen im Team, GanzIn - Mit Ganztag mehr Zukunft. 
Das neue Ganztagsgymnasium NRW, Studie zur Entwicklung von Ganz- 
tagsschulen: Wirkungen von außerunterrichtlichen Förderarrangements 
in Verbindung mit dem Unterricht an Ganztagsgrundschulen (StEG) oder 
Qualitätssicherung von zentralen Prüfungen - Zentralabitur NRW (Abi- 
TÜV) - um nur einige Beispiele zu nennen - waren einflussreich und lie- 
ferten wegweisende Erkenntnisse. Dabei galt es nicht nur Einzelschulen zu 
erreichen, sondern Befunde in die Breite zu tragen. Zeitschriften, die spezi- 
ell an Schulen gerichtet sind, waren eines dieser Mittel, Wissenschaft und 
Schule stärker zusammenzubringen, wie zum Beispiel Computer + Unter- 
richt. Die Vernetzung und Diskussion bildungswissenschaftlicher Fragestel- 
lungen wurde mit der Gründung des Open Access erscheinenden Journal 
for Educational Research Online (JERO) als internationalem und interdiszi- 
plinärem Journal vorangetrieben. Neben Zeitschriften hat das IFS im Laufe 
der Jahre verschiedene Herausgeberschaften von Reihen verantwortet - 
unter anderem die des vorliegenden Jahrbuchs der Schulentwicklung. Auch 
die über mehrere Jahre durchgeführte, repräsentative IFS-Umfrage stellte 
Ergebnisse zu Entwicklungen von Urteilen und Einstellungen der Bevölke- 
rung in Deutschland zu Schul- und Bildungsfragen vor. Um den gezielten 
Austausch des IFS mit verschiedenen Akteur*innen zu intensivieren, sind 
zudem regelmäßige Tagungsformate etabliert worden wie das Dortmunder 
Symposium der Empirischen Bildungsforschung für den interdisziplinären 
wissenschaftlichen Austausch und der IFS-Bildungsdialog, bei dem Vertre- 
ter*innen aus der Bildungspolitik, Bildungsadministration, Schulen oder 
relevanten Unterstützungssystemen mit der Wissenschaft in Austausch tre- 
ten. Das IFS lädt renommierte Wissenschaftler*innen, Vertreter*innen der 
Bildungspolitik und schulische Akteur*innen ein, im Rahmen dieser For- 
mate miteinander zu diskutieren, voneinander zu lernen und gemeinsam 
über die verschiedenen Perspektiven nachzudenken. 

Daneben sind Formate wie das webbasierte Praxisportal oder Trans- 
ferhandreichungen, wie jüngst in IGLU entwickelt, wichtige Maßnahmen. 
Zusammenfassend kann also festgehalten werden: 
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Viele Ergebnisse der Schulentwicklungsforschung haben eine direkte prakti- 
sche Relevanz. Studien werden häufig in Kooperation mit der schulischen Pra- 
xis durchgeführt, so dass die Ergebnisse hier direkt einfließen können. Auch 
die Bildungsadministration und Bildungspolitik haben großes Interesse an den 
Forschungsergebnissen. Formate wie der IFS-Bildungsdialog richten sich direkt 
an die Kommunikation mit diesen Akteur*innen und erfahren eine sehr positive 
Resonanz. 


Prof. Dr. Hanna Gaspard, (Vertretungs-)Professorin am IFS von 2020 bis 2023 


Des Weiteren wird über die Institutsgrenzen hinaus ein vielfältiges Publikum 
mit regelmäßig stattfindenden Ringvorlesungen und der „Virtual Keynote 
Series“ erreicht. Über die Ergebnisse der Forschung wird die interessierte 
Öffentlichkeit zudem durch aktive Pressearbeit sowie verschiedene Soci- 
al-Media-Aktivitäten informiert. 


Das IFS hat eine starke internationale Strahlkraft und wird nicht nur national, 
sondern auch international als „Powerhouse“ für Empirische Bildungsforschung 
anerkannt. Mit international sichtbaren Veranstaltungsformaten wie den „IFS 
Virtual Keynotes“ trägt das IFS zum akademischen und öffentlichen Diskurs zu 
wichtigen Bildungsthemen bei, wie z.B. „Interventions that support students‘ 
academic success“, „Instructional design innovations“, „Civic literacy“, „Educa- 
tion in the digital world“ und „Education and societal diversity“. 


Prof. Fani Lauermann, PhD, Professorin am IFS von 2018 bis 2023 


Nicht zuletzt ist die Strahlkraft des IFS auch weit über das Institut hinaus 
dadurch wahrnehmbar, dass im Laufe der 50 Jahre zahlreiche Personen am 
Institut eine Promotion oder Habilitation abgeschlossen und einflussreiche 
Positionen übernommen haben, unter anderem auf Professuren, in Minis- 
terien, Landesinstituten und Bildungsbüros. Auch die herausragende Leis- 
tung dieser ehemaligen IFS-ler*innen baut auf die Grundlagen der Arbeit 
des Instituts auf. 


4. „Welche sind die zukünftigen Perspektiven, mit denen 
das IFS die empirische Bildungsforschung zentral prägen 
wird? Wohin geht die Reise des IFS in den nächsten zehn 
Jahren?“ 


Nach dem Rückblick auf wesentliche Meilensteine der letzten 50 Jahre des 


Instituts, richten wir nun den Blick auf die Zukunft und fragen, welche Per- 
spektiven sich für das IFS skizzieren lassen. „Quo vadis IFS?“ fragen wir. 
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Die besondere Stärke des Instituts im Bereich der klassischen Schulent- 
wicklungsforschung wurde in den vergangenen zwei Jahrzehnten erweitert 
und es rückten zunehmend große Large-Scale-Assessment-Studien sowie 
pädagogisch-psychologische und interdisziplinäre Fragestellungen der Bil- 
dungsforschung in den Fokus. Diese Vielfalt der Forschung und methodi- 
schen Zugänge, die interdisziplinäre Zusammenarbeit und den Transferge- 
danken stellt auch die Geschäftsführende Direktorin als weiterhin wichtige 
Zukunftsperspektive heraus: 


Wir werden als großes, interdisziplinäres Team weiterhin die wichtigen Fragen 
der aktuellen Debatten um schulische Bildungsprozesse und das Schulsystem 
mit empirischen Befunden aus Studien mit unterschiedlichen Themenschwer- 
punkten und Forschungsdesigns unterstützen. Themen wie der vielfältige Kom- 
petenzerwerb von Kindern und Jugendlichen angesichts verschiedener individu- 
eller, institutioneller und sozialer Bedingungsfaktoren, die Digitalisierung oder 
guter Unterricht werden sicherlich leitend bleiben und das IFS als Größe in der 
Empirischen Bildungsforschung sichtbar bleiben lassen. Das IFS wird dabei 
auch zukünftig dafür stehen, dass das Institut nicht nur wichtige Erkenntnisse 
für die wissenschaftliche Community liefert, sondern auch ein wichtiger Partner 
auf allen anderen Ebenen - für die Politik, Bildungsadministration, Praxis und 
interessierte Öffentlichkeit - ist und so die Empirische Bildungsforschung und 
Bildungspraxis prägt. 


Prof. Dr. Nele McElvany, Direktorin des IFS seit 2014, Professorin am IFS seit 
2009 


Diese Einschätzung teilen die Professor*innen des IFS und sehen das Institut 
ebenfalls an einer wichtigen Schlüsselstelle: 


Es wird sicherlich eine Reihe von relevanten Entwicklungen geben. Ich denke, 
das IFS ist eine der zentralen Institutionen der deutschen Bildungslandschaft, die 
viele Forschungslinien mitgeprägt hat und mit der großen Vielfalt an sehr unter- 
schiedlichen Studien und einem großen interdisziplinären Forscher*innen-Team 
tief in die Bildungslandschaft hineinwirkt — sowohl in die Forschung im engeren 
Sinne als auch in den Forschungs-Praxis-Austausch. 


Prof. Dr. Michael Becker, Professor am IFS seit 2020 


Konkrete Entwicklungslinien sind zwar immer schwierig vorauszusagen, 
dennoch gibt es pragende Themen, mit denen das IFS eng verbunden ist und 
die weiterhin prägsam bleiben werden. Die Antwort auf die Frage, wo die 
Reise des IFS in den nächsten zehn Jahren wohl hingeht, identifiziert mehrere 
thematische Entwicklungslinien: 
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Ich würde eher von Reisen im Plural sprechen, da vielfältige Entwicklungslinien 
am IFS verfolgt werden, die alle wichtig und zentral erscheinen, unter anderem 
Themen wie die Veränderung und Förderung von kognitiven und sozioemotiona- 
len Kompetenzen, Lehren und Lernen im digitalen Zeitalter, Heterogenität und 
Ungleichheit im Bildungswesen, und nicht zuletzt die Transformation und Ent- 
wicklung von Schulen und des Bildungssystems. 


Prof. Dr. Michael Becker, Professor am IFS seit 2020 


Dazu ergänzt Professorin Charlotte Dignath auch die Entwicklungspotenziale 
des IFS im Bereich von Interventionen und nachhaltiger Bildung mit Blick 
auf längere Zeitspannen und Bildungsphasen: 


Ich kann mir auch gut vorstellen, dass das IFS die Forschung zu Interventionen 
im Bildungsbereich, zur Wirksamkeit von Instruktion und zur Rolle von Bildung für 
längerfristige Entwicklungen zentral mitprägen wird. Gerade für solche aktuellen 
Fragen im Bildungskontext ist die enge Zusammenarbeit der Arbeitsgruppen am 
IFS sehr gewinnbringend. 


Prof. Dr. Charlotte Dignath, Professorin am IFS seit 2022 


Die Vielfalt der Forschungsthemen und Herausforderungen im Bildungs- 
bereich bedingt, dass eine weitere Stärke des IFS auch in Zukunft Bestand 
haben wird: auf methodisch höchstem Niveau unterschiedliche Designs, 
Erhebungsmethoden und Analysestrategien in den Studien des Instituts zu 
implementieren: 


Wir werten Daten unter anderem aus international vergleichenden Large-Sca- 
le-Assessment-Studien, experimentellen Designs in Schulen oder im Labor, 
Längsschnittstudien, videographierten Unterrichtsbeobachtungen, Interviews, 
Kompetenztests, Fragebogendaten oder digitalen Verhaltensspuren mit komple- 
xen Methoden und innovativen Ansätzen aus, um unsere Prädiktionsmodelle und 
Wirksamkeitsanalysen bestmöglich zu spezifizieren und Antworten auf die wichti- 
gen Forschungsfragen zu finden. 


Prof. Dr. Hanna Gaspard, (Vertretungs-)Professorin am IFS von 2020 bis 2023 


Bei all den zahlreichen Leistungen, die im vorliegenden Kapitel lediglich 
punktuell benannt werden konnten, muss das Engagement aller Beteiligten im 
Laufe der vergangenen 50 Jahre hervorgehoben werden, ohne deren Zutun sich 
die heutige Präsenz und Wirksamkeit des IFS nicht hätte entwickeln können: 
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Ein großer Dank sei allen Ehemaligen, Affiliierten und aktuellen Mitarbeiter*in- 
nen in Wissenschaft und Verwaltung ausgesprochen, deren Arbeit, Engagement, 
innovatives Denken und kollegiales Miteinander sich wie ein Puzzlestück in das 
große Gesamtbild des IFS eingefügt hat! Es ist eine große Freude und mir persön- 
lich eine Ehre mit so vielen tollen Menschen zusammenarbeiten zu dürfen. Für die 
Zukunft bleibt an dieser Stelle nun dem IFS ein ebenso gutes Gelingen bei allen 
weiteren Vorhaben zu wünschen. 


Prof. Dr. Nele McElvany, Direktorin des IFS seit 2014, Professorin am IFS seit 
2009 
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Auch als erhältlich 


BELIZ JUVENTA 


In der Sozialen Arbeit wird zwar nicht bezweifelt, dass die Qualität der jeweiligen Hilfe 
unmittelbar an das Gelingen einer professionellen Beziehung gekoppelt ist. Wie man sie 
professionell ermöglicht, darüber bestehen jedoch nach wie vor viele Unklarheiten. Drei 
Studien der Autorin zeigen überzeugend auf, dass das Gelingen von Hilfe eine authenti- 
sche, emotional tragfähige, von Nähe geprägte und dennoch reflexiv und fachlich durch- 
drungene Diagnostik und Beziehungsführung erfordert. Es zeigt sich darüber hinaus, dass 
Hilfe besonders dann gelingt, wenn beziehungserschütterte KlientInnen die Möglichkeit 
zu persönlichen Beziehungsdimensionen und -momenten erhalten, die als Alternativer- 
fahrungen zu früheren Beziehungserschütterungen den Weg zurück in soziale Zusam- 
menhänge bahnen. Die Ergebnisse werden in einem Entwurf verknüpft, der die Entwick- 
lung von der ‚schützenden Inselerfahrung‘ zum ‚persönlich geprägten Netzwerk‘ 


prozessorientiert veranschaulicht. 
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Das pädagogische Vokabular wird von Begriffen geprägt, die manche als »einheimische« 
kennzeichnen. Aber es gibt auch eine Vielzahl von »Neuankömmlingen«, die in Anspruch 
genommen werden, wenn es darum geht, die Veränderungen des pädagogischen Feldes 
zu beobachten und auf den Begriff zu bringen. 

Das Buch reflektiert diese Entwicklung, verschafft einen lesbaren, prägnanten Überblick 
über das pädagogische Vokabular und setzt sich kritisch mit der Genese, Bestimmung 
und Verwendung der Begriffe auseinander. Dabei geht es darum, den pädagogischen 
Diskurs in seiner Widersprüchlichkeit, Ungleichzeitigkeit und Dynamik möglichst un- 
voreingenommen und multiperspektivisch zum Gegenstand zu machen. 

Auf diese Weise wird das Buch zu einem attraktiven Nachschlagewerk und Ideengeber 


für Student*innen, Doktorand*innen und Fachwissenschaftler*innen gleichermaßen. 
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Rassismuserfahrungen von Kindern und Jugendlichen verlangen nach einer Antwort 
der padagogischen Professionen und der Sozialen Arbeit. Aus der Betroffenenperspek- 
tive heraus analysiert die Autorin, welche Haltung, Reflexion und welches Wissen als 
Fachkraft unabdingbar ist, um Rassismus zu erkennen und Empowerment mitzuden- 
ken. Empowerment-orientierte Handlungskompetenz, Umgang mit Unterschieden, 
Wirkungen von Rassismuserfahrungen und wie Diskriminierung zu begegnen ist, wird 
praxisnah vorgestellt und mit Beispielen zur Umsetzung verknüpft. 

Das Besondere: Erstmals stellen Empowerment-Trainer_innen im Buch ihre Methoden 


in geschützten Räumen (Safer Spaces) vor. 
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